You are on page 1of 178

Business Intelligence

Flvio Ceci

Crditos
Universidade do Sul de Santa Catarina | Campus UnisulVirtual | Educao Superior a Distncia

Avenida dos Lagos, 41 Cidade Universitria Pedra Branca | Palhoa SC | 88137-900 | Fone/fax: (48) 3279-1242 e 3279-1271 | E-mail: cursovirtual@unisul.br | Site: www.unisul.br/unisulvirtual

Reitor
Ailton Nazareno Soares
Vice-Reitor
Sebastio Salsio Heerdt
Chefe de Gabinete da Reitoria
Willian Corra Mximo
Pr-Reitor de Ensino e
Pr-Reitor de Pesquisa,
Ps-Graduao e Inovao
Mauri Luiz Heerdt
Pr-Reitora de Administrao
Acadmica
Miriam de Ftima Bora Rosa
Pr-Reitor de Desenvolvimento
e Inovao Institucional
Valter Alves Schmitz Neto
Diretora do Campus
Universitrio de Tubaro
Milene Pacheco Kindermann
Diretor do Campus Universitrio
da Grande Florianpolis
Hrcules Nunes de Arajo
Secretria-Geral de Ensino
Solange Antunes de Souza
Diretora do Campus
Universitrio UnisulVirtual
Jucimara Roesler
Equipe UnisulVirtual
Diretor Adjunto
Moacir Heerdt

Secretaria Executiva e Cerimonial


Jackson Schuelter Wiggers (Coord.)
Marcelo Fraiberg Machado
Tenille Catarina

Assessoria de Assuntos
Internacionais
Murilo Matos Mendona

Assessoria de Relao com Poder


Pblico e Foras Armadas
Adenir Siqueira Viana
Walter Flix Cardoso Junior

Assessoria DAD - Disciplinas a


Distncia

Patrcia da Silva Meneghel (Coord.)


Carlos Alberto Areias
Cludia Berh V. da Silva
Conceio Aparecida Kindermann
Luiz Fernando Meneghel
Renata Souza de A. Subtil

Assessoria de Inovao e
Qualidade de EAD

Denia Falco de Bittencourt (Coord.)


Andrea Ouriques Balbinot
Carmen Maria Cipriani Pandini

Assessoria de Tecnologia

Osmar de Oliveira Braz Jnior (Coord.)


Felipe Fernandes
Felipe Jacson de Freitas
Jefferson Amorin Oliveira
Phelipe Luiz Winter da Silva
Priscila da Silva
Rodrigo Battistotti Pimpo
Tamara Bruna Ferreira da Silva

Coordenao Cursos
Coordenadores de UNA

Diva Marlia Flemming


Marciel Evangelista Catneo
Roberto Iunskovski

Auxiliares de Coordenao

Ana Denise Goularte de Souza


Camile Martinelli Silveira
Fabiana Lange Patricio
Tnia Regina Goularte Waltemann

Coordenadores Graduao

Alosio Jos Rodrigues


Ana Lusa Mlbert
Ana Paula R.Pacheco
Artur Beck Neto
Bernardino Jos da Silva
Charles Odair Cesconetto da Silva
Dilsa Mondardo
Diva Marlia Flemming
Horcio Dutra Mello
Itamar Pedro Bevilaqua
Jairo Afonso Henkes
Janana Baeta Neves
Jorge Alexandre Nogared Cardoso
Jos Carlos da Silva Junior
Jos Gabriel da Silva
Jos Humberto Dias de Toledo
Joseane Borges de Miranda
Luiz G. Buchmann Figueiredo
Marciel Evangelista Catneo
Maria Cristina Schweitzer Veit
Maria da Graa Poyer
Mauro Faccioni Filho
Moacir Fogaa
Nlio Herzmann
Onei Tadeu Dutra
Patrcia Fontanella
Roberto Iunskovski
Rose Clr Estivalete Beche

Vice-Coordenadores Graduao
Adriana Santos Ramm
Bernardino Jos da Silva
Catia Melissa Silveira Rodrigues
Horcio Dutra Mello
Jardel Mendes Vieira
Joel Irineu Lohn
Jos Carlos Noronha de Oliveira
Jos Gabriel da Silva
Jos Humberto Dias de Toledo
Luciana Manfroi
Rogrio Santos da Costa
Rosa Beatriz Madruga Pinheiro
Sergio Sell
Tatiana Lee Marques
Valnei Carlos Denardin
Smia Mnica Fortunato (Adjunta)

Coordenadores Ps-Graduao

Alosio Jos Rodrigues


Anelise Leal Vieira Cubas
Bernardino Jos da Silva
Carmen Maria Cipriani Pandini
Daniela Ernani Monteiro Will
Giovani de Paula
Karla Leonora Dayse Nunes
Letcia Cristina Bizarro Barbosa
Luiz Otvio Botelho Lento
Roberto Iunskovski
Rodrigo Nunes Lunardelli
Rogrio Santos da Costa
Thiago Coelho Soares
Vera Rejane Niedersberg Schuhmacher

Gerncia Administrao

Acadmica
Angelita Maral Flores (Gerente)
Fernanda Farias

Secretaria de Ensino a Distncia


Samara Josten Flores (Secretria de Ensino)
Giane dos Passos (Secretria Acadmica)
Adenir Soares Jnior
Alessandro Alves da Silva
Andra Luci Mandira
Cristina Mara Schauffert
Djeime Sammer Bortolotti
Douglas Silveira
Evilym Melo Livramento
Fabiano Silva Michels
Fabricio Botelho Espndola
Felipe Wronski Henrique
Gisele Terezinha Cardoso Ferreira
Indyanara Ramos
Janaina Conceio
Jorge Luiz Vilhar Malaquias
Juliana Broering Martins
Luana Borges da Silva
Luana Tarsila Hellmann
Luza Koing Zumblick
Maria Jos Rossetti

Marilene de Ftima Capeleto


Patricia A. Pereira de Carvalho
Paulo Lisboa Cordeiro
Paulo Mauricio Silveira Bubalo
Rosngela Mara Siegel
Simone Torres de Oliveira
Vanessa Pereira Santos Metzker
Vanilda Liordina Heerdt

Gesto Documental

Lamuni Souza (Coord.)


Clair Maria Cardoso
Daniel Lucas de Medeiros
Jaliza Thizon de Bona
Guilherme Henrique Koerich
Josiane Leal
Marlia Locks Fernandes

Gerncia Administrativa e
Financeira
Renato Andr Luz (Gerente)
Ana Luise Wehrle
Anderson Zandr Prudncio
Daniel Contessa Lisboa
Naiara Jeremias da Rocha
Rafael Bourdot Back
Thais Helena Bonetti
Valmir Vencio Incio

Gerncia de Ensino, Pesquisa e


Extenso
Janana Baeta Neves (Gerente)
Aracelli Araldi

Elaborao de Projeto

Carolina Hoeller da Silva Boing


Vanderlei Brasil
Francielle Arruda Rampelotte

Reconhecimento de Curso
Maria de Ftima Martins

Extenso

Maria Cristina Veit (Coord.)

Pesquisa

Daniela E. M. Will (Coord. PUIP, PUIC, PIBIC)


Mauro Faccioni Filho (Coord. Nuvem)

Ps-Graduao

Anelise Leal Vieira Cubas (Coord.)

Biblioteca

Salete Ceclia e Souza (Coord.)


Paula Sanhudo da Silva
Marlia Ignacio de Espndola
Renan Felipe Cascaes

Gesto Docente e Discente

Enzo de Oliveira Moreira (Coord.)

Capacitao e Assessoria ao
Docente

Alessandra de Oliveira (Assessoria)


Adriana Silveira
Alexandre Wagner da Rocha
Elaine Cristiane Surian (Capacitao)
Elizete De Marco
Fabiana Pereira
Iris de Souza Barros
Juliana Cardoso Esmeraldino
Maria Lina Moratelli Prado
Simone Zigunovas

Tutoria e Suporte

Anderson da Silveira (Ncleo Comunicao)


Claudia N. Nascimento (Ncleo Norte-

Nordeste)

Maria Eugnia F. Celeghin (Ncleo Plos)


Andreza Talles Cascais
Daniela Cassol Peres
Dbora Cristina Silveira
Ednia Araujo Alberto (Ncleo Sudeste)
Francine Cardoso da Silva
Janaina Conceio (Ncleo Sul)
Joice de Castro Peres
Karla F. Wisniewski Desengrini
Kelin Buss
Liana Ferreira
Luiz Antnio Pires
Maria Aparecida Teixeira
Mayara de Oliveira Bastos
Michael Mattar

Patrcia de Souza Amorim


Poliana Simao
Schenon Souza Preto

Karine Augusta Zanoni


Marcia Luz de Oliveira
Mayara Pereira Rosa
Luciana Tomado Borguetti

Gerncia de Desenho e
Desenvolvimento de Materiais
Didticos

Assuntos Jurdicos

Mrcia Loch (Gerente)

Bruno Lucion Roso


Sheila Cristina Martins

Desenho Educacional

Marketing Estratgico

Cristina Klipp de Oliveira (Coord. Grad./DAD)


Roseli A. Rocha Moterle (Coord. Ps/Ext.)
Aline Cassol Daga
Aline Pimentel
Carmelita Schulze
Daniela Siqueira de Menezes
Delma Cristiane Morari
Eliete de Oliveira Costa
Elosa Machado Seemann
Flavia Lumi Matuzawa
Geovania Japiassu Martins
Isabel Zoldan da Veiga Rambo
Joo Marcos de Souza Alves
Leandro Roman Bamberg
Lygia Pereira
Lis Air Fogolari
Luiz Henrique Milani Queriquelli
Marcelo Tavares de Souza Campos
Mariana Aparecida dos Santos
Marina Melhado Gomes da Silva
Marina Cabeda Egger Moellwald
Mirian Elizabet Hahmeyer Collares Elpo
Pmella Rocha Flores da Silva
Rafael da Cunha Lara
Roberta de Ftima Martins
Roseli Aparecida Rocha Moterle
Sabrina Bleicher
Vernica Ribas Crcio

Rafael Bavaresco Bongiolo

Acessibilidade

Multimdia

Vanessa de Andrade Manoel (Coord.)


Letcia Regiane Da Silva Tobal
Mariella Gloria Rodrigues
Vanesa Montagna

Avaliao da aprendizagem

Portal e Comunicao

Catia Melissa Silveira Rodrigues


Andreia Drewes
Luiz Felipe Buchmann Figueiredo
Rafael Pessi

Gerncia de Produo

Arthur Emmanuel F. Silveira (Gerente)


Francini Ferreira Dias

Design Visual

Pedro Paulo Alves Teixeira (Coord.)


Alberto Regis Elias
Alex Sandro Xavier
Anne Cristyne Pereira
Cristiano Neri Gonalves Ribeiro
Daiana Ferreira Cassanego
Davi Pieper
Diogo Rafael da Silva
Edison Rodrigo Valim
Fernanda Fernandes
Frederico Trilha
Jordana Paula Schulka
Marcelo Neri da Silva
Nelson Rosa
Noemia Souza Mesquita
Oberdan Porto Leal Piantino
Srgio Giron (Coord.)
Dandara Lemos Reynaldo
Cleber Magri
Fernando Gustav Soares Lima
Josu Lange

Claudia Gabriela Dreher


Jaqueline Cardozo Polla
Ngila Cristina Hinckel
Sabrina Paula Soares Scaranto
Thayanny Aparecida B. da Conceio

Conferncia (e-OLA)

Gerncia de Logstica

Marcelo Bittencourt (Coord.)

Jeferson Cassiano A. da Costa (Gerente)

Logsitca de Materiais

Carlos Eduardo D. da Silva (Coord.)


Abraao do Nascimento Germano
Bruna Maciel
Fernando Sardo da Silva
Fylippy Margino dos Santos
Guilherme Lentz
Marlon Eliseu Pereira
Pablo Varela da Silveira
Rubens Amorim
Yslann David Melo Cordeiro

Avaliaes Presenciais

Graciele M. Lindenmayr (Coord.)


Ana Paula de Andrade
Angelica Cristina Gollo
Cristilaine Medeiros
Daiana Cristina Bortolotti
Delano Pinheiro Gomes
Edson Martins Rosa Junior
Fernando Steimbach
Fernando Oliveira Santos
Lisdeise Nunes Felipe
Marcelo Ramos
Marcio Ventura
Osni Jose Seidler Junior
Thais Bortolotti

Gerncia de Marketing

Eliza B. Dallanhol Locks (Gerente)

Relacionamento com o Mercado


Alvaro Jos Souto
Relacionamento com Polos
Presenciais
Alex Fabiano Wehrle (Coord.)
Jeferson Pandolfo

Carla Fabiana Feltrin Raimundo (Coord.)


Bruno Augusto Zunino
Gabriel Barbosa

Produo Industrial

Gerncia Servio de Ateno


Integral ao Acadmico
Maria Isabel Aragon (Gerente)
Ana Paula Batista Detni
Andr Luiz Portes
Carolina Dias Damasceno
Cleide Incio Goulart Seeman
Denise Fernandes
Francielle Fernandes
Holdrin Milet Brando
Jenniffer Camargo
Jessica da Silva Bruchado
Jonatas Collao de Souza
Juliana Cardoso da Silva
Juliana Elen Tizian
Kamilla Rosa
Mariana Souza
Marilene Ftima Capeleto
Maurcio dos Santos Augusto
Maycon de Sousa Candido
Monique Napoli Ribeiro
Priscilla Geovana Pagani
Sabrina Mari Kawano Gonalves
Scheila Cristina Martins
Taize Muller
Tatiane Crestani Trentin

Universidade do Sul de Santa Catarina

Business Intelligence
Livro Digital

Palhoa
UnisulVirtual
2012

Copyright UnisulVirtual 2012


Nenhuma parte desta publicao pode ser reproduzida por
qualquer meio sem a prvia autorizao desta instituio.
Edio Livro Digital
Professor Conteudista
Flvio Ceci

Coordenao de Curso
Vera Rejane Niedersberg Schuhmacher

Design Instrucional
Silvana Souza da Cruz Clasen
Joo Marcos de Souza Alves (2 edio rev. e atual).

Projeto Grfico e Capa


Equipe Design Visual

Diagramao
Daiana Ferreira Cassanego

Reviso
Diane Dal Mago

ISBN
978-85-7817-465-1

005.74
C38
Ceci, Flvio
Business intelligence : livro digital / Flvio Ceci ; design instrucional
Silvana Souza da Cruz Clasen ; Joo Marcos de Souza Alves. Palhoa :
UnisulVirtual, 2012.
176 p. : il. ; 28 cm.
Inclui bibliografia.
ISBN 978-85-7817-465-1
1. Banco de dados. 2. Inteligncia em negcios. 3. Tecnologia da
informao. 4. Sistema de informao gerencial. I. Alves, Joo Marcos de
Souza. II. Ttulo.

Ficha catalogrfica elaborada pela Biblioteca Universitria da Unisul

Flvio Ceci

Business Intelligence
Livro Digital

Designer instrucional
Joo Marcos de Souza Alves
2 edio revista e atualizada

Palhoa
UnisulVirtual
2012

Sumrio

Sumrio

Apresentao

Palavras do Professor

11

Plano de estudo

15

Unidade 1
O poder da informao e do conhecimento nas organizaes

45

Unidade 2
Colocando inteligncia nos negcios

63

Unidade 3
Data Warehouse

95

Unidade 4
Descobrindo o conhecimento

131

Unidade 5
Processo OLAP

159 Para concluir os estudos


161

Minicurrculo

163 Respostas e comentrios das atividades


deautoaprendizagem e colaborativas

169 Referncias

Apresentao

Caro/a estudante,
O livro digital desta disciplina foi organizado didaticamente, de modo a oferecer a
voc, em um nico arquivo pdf, elementos essenciais para o desenvolvimento dos
seus estudos.
Constituem o livro digital:
Palavras do professor (texto de abertura);
Plano de estudo (com ementa, objetivos e contedo programtico
dadisciplina);
Objetivos, Introduo, Sntese e Saiba mais de cada unidade;
Leituras de autoria do professor conteudista;
Atividades de autoaprendizagem e gabaritos;
Enunciados das atividades colaborativas;
Para concluir estudos (texto de encerramento);
Minicurrculo do professor conteudista; e
Referncias.
Lembramos, no entanto, que o livro digital no constitui a totalidade do material
didtico da disciplina. Dessa forma, integram o conjunto de materiais de estudo:
webaulas, objetos multimdia, leituras complementares (selecionadas pelo
professor conteudista) e atividades de avaliao (obrigatrias e complementares),
que voc acessa pelo Espao UnisulVirtual de Aprendizagem.
Tais materiais didticos foram construdos especialmente para este curso, levando
em considerao as necessidades da sua formao e aperfeioamento profissional.
Atenciosamente,
Equipe UnisulVirtual

Palavras do Professor

Bem-vindo caro aluno!


Na disciplina de Business Intelligence voc ter a oportunidade de navegar por
vrios conceitos das reas de administrao, sistemas de informao, banco de
dados, inteligncia artificial e gesto de TI.
Inicialmente, so tratados os conceitos relacionados com dado, informao
e conhecimento, qual o papel de cada um desses itens e como eles podem
auxiliar na gesto de uma organizao. Posteriormente, so vistos os conceitos
de sistema e depois, de maneira mais especfica, sistemas de informao e,
especializando mais ainda, sistemas de apoio deciso.
Percebe-se que as aplicaes de business intelligence (BI) so, na verdade,
sistemas de apoio deciso. Na unidade 2 so tratados com mais detalhes os
conceitos relacionados com BI, bem como suas caractersticas e usos.
A unidade 3 traz o tema Data Warehouse, que geralmente utilizando como
repositrio de dados para as aplicaes de BI, mas tambm pode ser utilizado
em outros contextos organizacionais. Nesta unidade, tambm ser estudada a
modelagem de dados dimensional e como ela pode trazer benefcios a sistemas
de apoio deciso.
Na unidade 4 so abordadas as fases do BI, alm de dar foco a algumas outras
reas envolvidas, como por exemplo: descoberta de conhecimento e banco de
dados e descoberta de conhecimento em textos.
Por fim, so apresentados os conceitos relacionados com OLAP e como podem
ser consumidas as informaes e os conhecimentos explicitados pela ferramenta
em questo.
timos estudos!
Flvio Ceci

Plano de estudo

O plano de estudos visa a orient-lo/a no desenvolvimento da disciplina. Possui


elementos que o/a ajudaro a conhecer o contexto da disciplina e a organizar o
seu tempo de estudos.
O processo de ensino e aprendizagem na UnisulVirtual leva em conta instrumentos que
se articulam e se complementam, portanto a construo de competncias se d sobre a
articulao de metodologias e por meio das diversas formas de ao/mediao.
So elementos desse processo:
o livro digital;
o Espao UnisulVirtual de Aprendizagem (EVA);
as atividades de avaliao (a distncia, presenciais e de autoaprendizagem);
o Sistema Tutorial.

Objetivo geral
As empresas devem tomar decises em todos os nveis organizacionais e em
todas suas reas de atuao. Ter informao precisa e de qualidade pode ser
a diferena entre tomar decises certas ou no. Nesse sentido, a qualidade
da informao um diferencial competitivo nas empresas. Apenas armazenar
dados sobre clientes, fornecedores, vendas, compras e colaboradores, no o
suficiente. Asorganizaes buscam a qualidade dos dados e sua transformao
em informaes que gerem conhecimento dentro da empresa, apoiando o
processo de tomada de deciso. O objetivo da disciplina trazer para o aluno
conhecimento sobre conceitos, arquitetura e componentes dos sistemas de
BI (BusinessInteligence). Os sistemas de BI fornecem uma arquitetura com a
viso do analista de negcios, permitindo s organizaes a transformao e a
extrao dos dados coletados em seus sistemas de informao, em informao e
conhecimento, para auxlio ao processo decisrio das organizaes.

Ementa
Informao e deciso nas organizaes. Dados, informao e conhecimento.
Sistemas de Informao nas organizaes: sistemas transacionais e de apoio
deciso. Arquitetura e componentes de uma soluo de BI-BusinessIntelligence.
Data Warehouse: motivao, conceitos, definio e caractersticas.
ModeloDimensional: fatos, dimenses, medidas e granularidade. Sistemas ETL:
extrao limpeza, transformao e carga de um modelo dimensional. rea de
apresentao: caractersticas das tcnicas analticas (OLAP) como ferramentas de
apresentao e extrao de informao.

Contedo programtico/objetivos
A seguir, as unidades que compem o livro digital desta disciplina e os seus
respectivos objetivos. Estes se referem aos resultados que voc dever alcanar
ao final de uma etapa de estudo. Os objetivos de cada unidade definem o
conjunto de conhecimentos que voc dever possuir para o desenvolvimento de
habilidades e competncias necessrias a este nvel de estudo.

Unidades de estudo: 5

Unidade 1 O poder da informao e do conhecimento nas


organizaes
Nesta unidade, apresentada uma viso geral entre dado, informao e
conhecimento, quais as suas fronteiras e sua aplicabilidade. Aps visto o que so
sistemas de informao, qual a sua utilidade e como se pode classific-los. Por fim,
apresentada uma viso geral sobre os sistemas de apoio deciso e como eles
podem agregar valor camada gerencial das organizaes.

Unidade 2 Colocando inteligncia nos negcios


Verifica-se que os sistemas de informao trazem muitos benefcios para uma
organizao. Para a camada tomadora de deciso, a utilizao de aplicaes
de Business Intelligence tem sido cada vez mais comum. Nesta unidade, so
apresentados conceitos introdutrios sobre Business Intelligence e de que forma
eles auxiliam nas decises estratgicas para uma organizao.

Ps-graduao

Unidade 3 Data Warehouse


Esta unidade focada no estudo dos conceitos relacionados com os Data
Warehouse (DW), qual a sua participao numa aplicao de Business Intelligence
e como a modelagem de dados dimensional pode auxiliar na construo desse
tipo de repositrio.

Unidade 4 Fases do Business Intelligence


Na unidade 4, so apresentadas as fases do Business Intelligence, a diferena
do processo Knowledge Discovery in Database (KDD) e Knowledge Discovery
Text(KDT), e como esses processos podem auxiliar na etapa de tomada de deciso.

Unidade 5 Processo OLAP


Na nossa unidade final ilustrado o processo On-line Analytical Processing (OLAP),
que est focado no consumo das informaes armazenadas e na apresentao
para os usurios do sistema de apoio deciso.

Carga horria: 45 horas

Business Intelligence

Unidade 1

O poder da informao e do
conhecimento nas organizaes

Objetivos de Aprendizagem
Compreender o papel da informao e do conhecimento como
facilitadores para a tomada de decises e planejamento em organizaes.
Entender em que mbito a tecnologia contribui no processo de tomada
de decises.
Diferenciar sistemas de informao dentro de um ambiente organizacional.

Introduo
No novidade que as organizaes esto cada vez mais utilizando recursos
computacionais para auxiliar nas suas operaes. Com o uso indiscriminado
dos computadores, gerase, diariamente, uma quantidade enorme de dados
estruturados(em banco de dados), semiestruturados(emails, logs, entre outros)
e no estruturados(texto livre como, por exemplo: relatrios, manuais, artigos,
entre outros).
Esses dados, de maneira isolada, no trazem vantagens para o gerenciamento das
operaes e tomada de deciso, mas servem como matriaprima para a gerao
de informaes. Os sistemas de informao vm com esse propsito, entregar
informaes organizacionais a partir dos dados armazenados.
Os sistemas de informao tradicionais so focados no apoio das operaes de
uma organizao, no trazendo vantagens diretas camada tomadora de deciso,
tendo em vista essas carncias, desenvolveuse um subtipo especfico de sistemas
de informao, chamados de sistemas de apoio deciso.

16

Dado, informao e conhecimento


Flvio Ceci

A cada dia mais e mais as pessoas esto produzindo dados de maneira involuntria,
seja efetuando compras, navegando pela internet, escutando msicas online,
fazendo buscas em sites como Google, Yahoo e Bing, participando de redes sociais,
entre outras atividades. Esses dados de maneira bruta no revelam segredos,
apenas apresentam trajetrias e dados provenientes de operaes, mas a partir
do seu processamento podese chegar a valiosas informaes.
Bill Tancer um especialista em anlise de dados do mundo virtual, em seu livro
Click, lanado no Brasil no ano de 2009 pela editora Globo, o autor apresenta sua
trajetria no mundo da anlise de dados virtuais. A partir das consultas feitas em
sites de busca, Tancer demonstra como os dados gerados pelas buscas esto
diretamente relacionados com eventos atuais e como esses dados cruzados de
maneira correta podem apresentar tendncias e indicadores.
Percebese que o processamento do dado bruto gera a informao. Para
Fialhoetal.(2006), dados so representaes simblicas para descries de
atributos de qualquer nvel. Segundo Pinheiro(2008), a camada de dados
responsvel pela existncia dos sistemas transacionais, que tem como funo
apoiar as operaes da organizao. Segundo Ceci(2010), h bastante tempo
as organizaes utilizam seus dados operacionais para gerar informao que os
ajudem na etapa de tomada de deciso. Mas nunca se produziu tantos dados no
ambiente virtual como nos dias de hoje. O surgimento de uma srie de dispositivos
que mantm cada vez mais as pessoas conectadas proporciona uma verdadeira
avalanche de novos dados por segundo.
Tendo esse cenrio como atual, muitas empresas esto utilizando no apenas os
seus dados operacionais(dados provenientes de operaes como, por exemplo,
uma venda ou compra de um determinado produto) e transacionais(dados em
nvel de transao), mas tambm os disponveis na web, como por exemplo,
textos publicados em microblogs, como o twitter, para identificar a opinio de
um grupo sobre um dos seus produtos ou servios. Esses dados disponveis na
web combinados com os internos da organizao geram informaes ainda mais
relevantes e estratgicas para a etapa da tomada de deciso.
Don Tapscott considerado por muitos como gnio das estratgias empresariais
em seu bestseller Wikinomics, lanado em 2006, e escrito em parceria com seu
colega de trabalho Anthony D. Williams, fala sobre como a colaborao pode
auxiliar e muito as organizaes. Nesse livro apresentado um caso em que
uma organizao tinha um problema que no conseguia encontrar uma soluo

Ps-graduao

17

efetiva pelos seus engenheiros e pesquisadores, a alternativa encontrada foi abrir


os dados na internet e ofertar um prmio para o pesquisador que conseguisse
resolvlo, ouseja, processar o dado bruto, para gerar informao e conhecimento.
Segundo Fialho et al.(2006), informao um conjunto de dados que so
processados corretamente e tornamse compreensveis, ou seja, apresentem um
significado, criando padres e acionando significados na mente dos indivduos.
Percebese que os dados esto relacionados diretamente com as operaes de
uma organizao ou de um indivduo e esto armazenados na forma de bases
de dados transacionais. O processamento sobre eles gera as informaes, como
por exemplo, no contexto de um sistema de controle de estoque, saber que
existe 10unidades de um produto no depsito um dado, agora, saber que se
a quantidade deste produto for inferior a 3 unidades, significa que est com o
estoque em baixa, uma informao.
Segundo Fialho(2006), para que os dados se transformem em informao,
necessrio que as correlaes entre os muitos fatos e suas implicaes para
os indivduos e para as organizaes sejam evidenciados, ou seja, explicitados.
AFigura 1 ilustra a afirmao feita pelo autor:
Figura 1 - Transformando dados em informao
Fatos

Dados

Indivduos
Processamento

Organizao

Informao

Fonte: Fialho, 2006.

Vemos que a informao por si s no apenas fato, instruo ou nmero de uma


tabela, informao o significado expresso pelo ser humano, trazendo benefcios
etapa de tomada de deciso(GOUVEIA; RANITO, 2004).
As anlises dos dados nos levam at a informao, tecnologicamente, os sistemas
de informao fazem essa ponte, entregando para o usurio final informaes
relevantes permitindo uma economia de tempo. O cenrio a seguir apresenta uma
situao para ilustrar essas afirmaes:
A UnisulVirtual o campus da Universidade do Sul de Santa Catarina responsvel por
todos os projetos e programas de ensino a distancia da UNISUL, contando com mais
de 12 mil alunos espalhados por todo o Brasil.

O poder da informao e do conhecimento nas organizaes

18

Imaginase que todas as notas dos alunos esto armazenadas numa mesma tabela,
no banco de dados, como apresentado abaixo:
Tabela 1 - Tabela de relacionamento entre aluno e disciplina
codAluno

codDisciplina

prova1

prova2

prova3

Media

98413

2009412

10

9,5

9,5

87536

2007324

4,7

96784

2009413

...

...

...

...

...

...

Fonte: Elaborao do autor, 2012.

O campo codAluno equivale ao cdigo de identificao do aluno numa tabela onde


so mantidos os dados relacionados com os alunos, como por exemplo, oseu nome,
seu telefone, nome dos seus pais, endereo, entre outras informaes. Ocampo
codDisciplina representa o cdigo identificador da disciplina numa tabela que
armazena as informaes relacionadas com as disciplinas, outras informaes
relevantes para essa tabela so: nome da disciplina, nome do curso que a contm,
qual semestre ela foi ministrada, entre outras informaes.
Os campos prova1, prova2 e prova3 representam as trs notas de provas feitas
pelosalunos da disciplina, o ltimo campo representa a mdia aritmtica das trs
notas registradas.
Suponhase que a secretria do curso de Cincia da Computao gostaria de premiar
todos os alunos que possuem mdia superior a 9, se no existir um sistema de
informao, seria necessrio que algum funcionrio da secretaria identificasse quais
so as disciplinas que fazem parte do curso em questo e depois verificar todos os
registros da tabela aluno_disciplina que possuem o campo codDisciplina, equivalente
a um cdigo de disciplina do curso e depois se a mdia apresentada superior a 9.
Dessa maneira, o funcionrio da secretaria est interagindo diretamente com os
dados da tabela. Agora, se a secretaria dispor de um sistema de informao que
possua um ambiente onde possa fazer cruzamento de informaes e aplicar filtros,
facilmente ser retornado um relatrio com a informao solicitada.
Percebese que a informao traz mais benefcios que os dados para a camada
tomadora de deciso de uma organizao. Segundo Primak(2008), a informao
faz parte da base da construo do conhecimento. Para Fialho et al.(2006),
podese definir conhecimento como um conjunto completo de informaes,
dados e relaes que auxiliam os indivduos na tomada de deciso, realizao de
tarefas e a gerao de novas informaes e conhecimentos. Outra definio para

Ps-graduao

19

conhecimento, dada pelo autor um conjunto de informaes contextualizadas e


dotadas de semntica inerentes ao agente que o detm, e seu contedo semntico
se dar em funo do conjunto de informaes que o compem, de suas ligaes
com outras unidades de conhecimento e do processo de contextualizao.
Para transformar informao em conhecimento no basta apenas a aplicao
de uma etapa de processamento(como no caso dos dados para a informao),
necessrio um processo de sntese por parte de quem est consumindo a
informao. Segundo Ghisi, Ceci e Sell(2011), a visualizao de informao
participa diretamente do processo de aquisio(quando se acessa um
conhecimento j existente) e criao(que permitido a partir da interpretao
das informaes por parte do indivduo). A Figura 2 apresenta essa transformao.
Figura 2 - Da informao ao conhecimento
Sntese
Processamento
Dados

Informao

Conhecimento

Fonte: Ghisi, Ceci e Sell, 2011.

Cada vez mais a informao e o conhecimento vm desempenhando um papel


importante para as organizaes. Atualmente, com a grande quantidade de
documentos digitais, emails e dados em base de dados h uma fonte gigantesca
para a gerao de informao e, posteriormente, para a descoberta e extrao
de conhecimento.
As organizaes que possuem atividades intensivas em conhecimento e que se
caracterizam por ter o conhecimento como fator de produo so chamadas
de organizaes do conhecimento. Para Fialho(2006), podese caracterizar
uma organizao como do conhecimento quando ela de base tecnolgica
e de servios que apresentam propores ativas intangveis, acima do seu
valor contbil. Segundo Ceci(2010), um problema bastante recorrente, nas
organizaes ditas organizaes do conhecimento, para trabalhar com o
conhecimento como encontrlo, recuperlo, armazenlo e compartilhlo
entre os seus membros.
A rea da gesto do conhecimento nasce com a misso de auxiliar as organizaes
a gerenciarem melhor o seu conhecimento, j que esse est, em grande maioria,
na cabea dos funcionrios. Cada baixa de funcionrio uma perda considervel
para o capital intelectual da organizao, dessa forma, a gesto do conhecimento

O poder da informao e do conhecimento nas organizaes

20

pensa em mecanismos para adquirir o conhecimento da cabea dos funcionrios


de modo que ele seja compartilhado e armazenado.
Prticas adotadas pela gesto do conhecimento vo da criao de comunidades
de prtica, adoo de programas de lies aprendidas, estmulo aos funcionrios
para a utilizao de wikis internas a organizao. Todas essas prticas so
diretamente aplicadas sobre os seus funcionrios, mas sabese que muito dos
conhecimentos da organizao esto implcitos em documentos textuais no
estruturados. Para esses casos, a gesto do conhecimento conta com a rea da
Engenharia do Conhecimento.
A rea da Engenharia do Conhecimento nasceu como subrea da Inteligncia
Artificial, que tinha como foco a criao de sistemas especialistas, esses sistemas
eram baseados em regras lgicas extradas da cabea de um especialista em
um determinado domnio. Essa era a caracterstica da chamada engenharia do
conhecimento clssica, que adotava o paradigma de transporte, ou seja, que
estava focada em transpor o conhecimento da cabea de um especialista para
compor um conjunto de regras que fazem parte de um sistema especialista de
umdomnio(STUDER; BENJAMINS; FENSEL, 1998).
A engenharia do conhecimento clssica adota o paradigma de transporte e
apresenta alguns problemas:
quanto escala: havia a reinveno da roda em cada projeto;
quanto ao contexto: no tinha a viso do contexto onde o problema
estava inserido(tarefa modelada);
quanto modelagem: o paradigma de transporte era moldado
expectativa de funcionamento do aplicativo(regras em shell) e no
natureza do contexto da tarefa intensiva em conhecimento;
quanto ao desenvolvimento: a prototipao rpida tornava o sistema
gerado de difcil manuteno.

Ps-graduao

21

Tendo em vista esses problemas, nasce a chamada Nova Engenharia do


Conhecimento, que faz uso do paradigma de modelagem. Esse nome dado
pois essa abordagem est focada na modelagem do conhecimento, de modo que
o mesmo possa ser reaproveitado em outros sistemas baseados em conhecimento,
permitindo, assim, a sua socializao entre os membros da organizao.
Para a explicitao do conhecimento existente em bases de dados e documentos
textuais no estruturados, a engenharia do conhecimento utilizase de tcnicas da
inteligncia artificial, como as apresentadas a seguir:
Reconhecimento de entidades nomeadas;
Algoritmos de clusterizao(agrupamentos);
Processamento de linguagem natural;
Raciocnio baseado em casos;
Algoritmos genticos
Redes neurais artificiais.
Depois de extrair o conhecimento implcito nas bases de documentos e de dados
da organizao, necessrio representlo formalmente de maneira que ele possa
ser corretamente armazenado e reutilizado, para isso so utilizadas as ontologias.
As ontologias nasceram da rea da filosofia onde eram conceituadas como uma
definio de mundo. Para a computao podese definir como uma representao
formal de um conhecimento de domnio, de modo que tanto um indivduo quanto
um computador podem interagir com o conhecimento modelado. Segundo Studer,
Benjamins e Fensel(1998), uma ontologia uma especificao explcita e formal
de conceitos e relaes que existem em um domnio.
Para Souza(2003), as ontologias so usadas como uma forma de representao
e integrao do conhecimento pela sua capacidade de reuso e interoperabilidade.
Uma outra utilizao que se pode levantar o fato de serem empregadas como
uma linguagem comum entre agentes de softwares e humanos, permitindo, assim,
a socializao do conhecimento. A Figura 3 apresenta um exemplo de ontologia:

O poder da informao e do conhecimento nas organizaes

22

Figura 3 - Exemplo de uma ontologia de domnio

Fonte: Ceci, 2010.

As ontologias utilizam conceitos similares aos do paradigma de desenvolvimento


de software orientado a objetos, sendo compostas por classes, instncias, relaes,
propriedades e domnio. Na Figura 3 apresentase a representao de uma ontologia
bastante simples, onde so apresentadas cinco classes, por meio de quadrados
amarelos. Como se pode observar todas as classes Pessoa, rea_do_conhecimento,
Organizao, Lugar e Outra so filhas de uma classe Thing(em portugus coisa),
ou seja, todas as cinco so coisas do domnio modelado.
Os quadrados em lils so as instncias das classes em questo, facilmente
podemos visualizar que Santa Catarina uma lugar, verificase que Administrao
foi classificada com uma instncia da ontologia, mas o mtodo que a gerou no
conseguiu classificla.
As ontologias so formas para representar conhecimento, de modo que os
indivduos e os sistemas possam inferir sobre elas, sendo parte fundamental
dos sistemas baseados em conhecimento, ferramenta indispensvel para as
organizaes do conhecimento.

Ps-graduao

23

Referncias
CECI, Flvio. Um modelo semiautomtico para a construo e manuteno de ontologias
a partir de bases de documentos no estruturados. 2010. Dissertao(Mestrado em
Engenharia e Gesto do Conhecimento) Universidade Federal de Santa Catarina,
Florianpolis, 2010. Disponvel em: <http://btd.egc.ufsc.br/wpcontent/uploads/2011/04/
Fl%C3%A1vio_Ceci.pdf>. Acesso em: 10 de dez. 2011.
FIALHO, Francisco Antnio Pereira et al. Gesto do conhecimento e aprendizagem: as
estratgias competitivas da sociedade psindustrial. Florianpolis: Visualbooks, 2006.
GHISI, Fernando B.; CECI, Flvio; SELL, Denilson. Aspectos relacionados com a eficcia
do processo de aquisio de conhecimento a partir de apresentao de informaes
numricas: sumrios textuais podem ser mais adequados que representaes grficas?
5CIDI Congresso Internacional de Design da Informao. Florianpolis, 2011.
GOUVEIA, Lus B.; RANITO, Joo. Sistemas de informao de apoio gesto. Porto,
Portugal: Sociedade Portuguesa de Inovao, 2004.
PINHEIRO, Carlos Andr Reis. Inteligncia analtica: minerao de dados e descoberta de
conhecimento. Rio de Janeiro: Cincia Moderna, 2008.
PRIMAK, Fbio Vincius. Decises com B.I. Rio de Janeiro: Editora Cincia Moderna, 2008.
STUDER, Rudi; BENJAMINS, V. Richard; FENSEL, Dieter. Knowledge engineering: principles
and methods. IEEE Transactions on Data and Knowledge Engineering, 1998.
TANCER, Bill. Click: O que milhes de pessoas esto fazendo online e por que isso
importante. Editora Globo S.A. So Paulo, 2009.
TAPSCOTT, Don; WILLIAMS, Anthony D. Wikinomics: Como a colaborao em massa pode
mudar o seu negcio. Editora Nova Fronteira, Rio de Janeiro, 2006.

O poder da informao e do conhecimento nas organizaes

24

Sistemas de informao
Glucio Adriano Fontana e Flvio Ceci

Na leitura anterior sobre dado, informao e conhecimento, foram apresentados


detalhes e conceitos sobre esses temas, bem como as suas principais diferenas.
Abordouse tambm como o uso de informaes e conhecimento podem
auxiliar a camada tomadora de deciso de uma organizao. Segundo Gouveia
e Ranito(2004), os sistemas de informao(SI) possuem diversas funes
relacionadas com a manipulao de dados e de informao, que so executadas
com base num conjunto de procedimentos manuais e automticos, visando a
auxiliar na tomada de deciso.
Percebese que os sistemas de informao so um meio para acessar as
informaes de maneira mais efetiva, mas antes de apresentar mais conceitos
relacionados com SI, importante entender o que um sistema. Basicamente,
podese definir sistema como um conjunto de componentes(e subsistemas) que
formam um todo, e que interagindo chegam a um objetivo comum(GOUVEIA;
RANITO, 2004). Um sistema possui algumas caractersticas, as quais, segundo
Gouveia e Ranito(2004), so:
Objetivo: a proposta que justifica o sistema, esse pode ter mais de
umobjetivo;
Componentes: so partes dos sistemas que funcionam juntas para
atender os objetivos;
Estrutura: relaes entre componentes cuja funo a definio das
fronteiras(limite) do sistema e o meio que est envolvido;
Comportamento: determinado pelos processos desenvolvidos para,
nosistema, alcanar os resultados esperados;
Ciclo de vida: ocorre em qualquer sistema e inclui alguns fenmenos:
evoluo, desgaste, desadequao, envelhecimento, reparao,
substituio e morte do sistema.
Verificando as caractersticas de um sistema, facilmente entendemos o porqu
de chamarmos o fluxo dentro do aparelho digestivo de sistema digestivo,
podemos simplificar a ideia de um sistema como algo que possui: entrada,
processamento e sada, logo, as organizaes so sistemas sociais.
Cruzando os conceitos de sistemas com elementos da teoria da complexidade,
Axelrod e Cohen(1999) apresentam o conceito de sistemas adaptativos
complexos(SAC), que podem ser conceituados como os que contm
agentes(pessoas, entidades etc.) ou populaes que procuram se adaptar por
meio da interao. Para Ceci(2010), as organizaes podem ser facilmente

Ps-graduao

25

caracterizadas como sistemas adaptativos complexos, a Figura 1 apresenta um


exemplo desta afirmao:
Figura 1 - Organizao vista como um sistema adaptativo complexo
Organizao (Sistema adaptativo complexo)

Qualidade

Fabricao Qualidade Fabricao

Compras Compras

Compras
Tesoureiro
Tesoureiro

Gerenciamento

Qualidade
Recebimento
Remessa

Recepo

Empacotamento

Pessoal

Recebimento

Pessoal Remessa

Marketing
Marketing
Vendas
Vendas

Fonte: Ceci, 2010.

Percebese que a organizao como um todo um sistema composto por uma


srie de outros subsistemas que interagem, para cumprir as metas organizacionais
ou do seu setor.
Ainda caracterizando uma organizao como um sistema, Gouveia e
Ranito(2004) constroem uma justificativa a partir de cada caracterstica
anteriormente apresentada:
Objetivo: dependendo do nvel de responsabilidade, possvel definir
objetivos tticos, estratgicos e operacionais;
Componentes: as organizaes envolvem uma srie de pessoas, essas
pessoas so agrupadas por funo e atividade. Os departamentos da
empresa contribuem para a prpria organizao, e cada uma dessas
exige informaes em diferentes nveis de responsabilidade;
Estrutura: definida pela forma como a responsabilidade distribuda
pelos indivduos. Lembrando que as estruturas definem as fronteiras;
Comportamento: definido pelos processos organizacionais. Os processos
so sequncias especficas de atividades para realizar os objetivos.
Ciclo de vida: a organizao passa por vrias fases ao longo da sua
vida. Exige uma reviso peridica dos objetivos para assegurar a
suasobrevivncia.

O poder da informao e do conhecimento nas organizaes

26

Vendo a organizao como um sistema, podese afirmar que um sistema de


informao um subsistema tecnolgico, os sistemas de informao consistem
no conjunto de componentes interrelacionados, trabalhando juntos para coletar,
recuperar, processar, armazenar e distribuir informaes com a finalidade de
facilitar o planejamento, o controle, a coordenao, a anlise e o processo
decisrio em empresas.
Os sistemas de informao tm evoludo tanto em importncia para as organizaes,
quanto em tecnologia. Os sistemas de arquivamento manual podem satisfazer
muitas necessidades para organizar e recuperar informaes, mas por meio desses
tornase lenta e difcil a tarefa de recuperar grandes quantidades de informao,
bem como coletar e transmitilas de grandes distncias. Os sistemas de informao
computadorizados, por sua vez, facilitam o acesso aos dados em um nico local,
suportando rpidas e repetidas pesquisas de dados, permitindo tambm recuperar
informaes de mltiplos locais quase sempre instantaneamente.
Com a crescente competitividade entre as organizaes, a tecnologia da
informao ganha valor fundamental para as estratgias de administrao.
Asorganizaes que almejam diferenciais competitivos, para conquistar mercados
e obter vantagens, precisam conhecer as tendncias, desejos e anseios desses
mercados, o que somente poder ser realizado por meio de um eficiente sistema
de informao(LAUDON; LAUDON, 2001).
Decises podem ser estruturadas quando possuem procedimentos bem definidos
e documentados; no estruturadas, quando h bastante subjetividade de
julgamento e avaliao; ou ainda semiestruturadas, quando hbridas em relao
aos tipos referidos. Dessa maneira, diferentes SI so necessrios, a pensar
inclusive pelo ambiente dinmico em que esto inseridos, leiase mercado que
exige respostas rpidas em funo de suas necessidades e mudanas.
A interpretao, por meio dos dados, sobre o que realmente os clientes,
osconcorrentes e outros atores do ambiente interno e externo esto
querendo dizer, mesmo que de forma indireta, auxilia os gestores a monitorar
o desempenho da empresa, possibilitandolhes adotar medidas efetivas para
melhorar seus produtos e processos, bem como utilizar informaes sobre as
melhores prticas de outras empresas, estabelecendo, assim, um padro de
desempenho de alto nvel para essa empresa(GORDON; GORDON, 2006).
Maas(1999) define o sistema de informao como o conjunto interdependente das
pessoas, das estruturas da organizao, das tecnologias de informao(hardware
e software), dos procedimentos e mtodos que deveriam permitir empresa
dispor, no tempo desejado, das informaes de que necessita(ou necessitar) para
seu funcionamento atual e para sua evoluo. Percebese a importncia do item

Ps-graduao

27

pessoas, tanto como trabalhadores de informao e conhecimento como usurios


desses, abrangendo, portanto, alm de tecnologias e um ambiente(organizao), o
componente humano.
Os sistemas de informao influenciam diretamente o modo como os gestores
decidem, planejam e, em muitos casos, determinam como e quais produtos e
servios so produzidos. Atualmente, podem ajudar as empresas a ampliar seu
alcance a mercados distantes, oferecer novos produtos e servios, reformar
tarefas e fluxos de trabalho e at mesmo mudar profundamente a maneira de
conduzir negcios(LAUDON; LAUDON, 2001).
Esse o principal papel para os sistemas de informao, ou seja, sua aplicao
em problemas que se relacionam vantagem competitiva de uma empresa.
Eles tm importncia estratgica, uma vez que se concentram em resolver
problemas relacionados tanto ao desenvolvimento da empresa, a mdio e longo
prazo, quanto a sua sobrevivncia. Tais problemas podem significar a criao ou
inovao em novos produtos e servios, o estabelecimento de novas relaes com
clientes e fornecedores, ou a descoberta de meios mais efetivos de administrar as
atividades da empresa.(BIO, 1996).
Segundo Gouveia e Ranito(2004), o objetivo de um sistema de informao
orientar a tomada de deciso, o seu comportamento deve ser aferido pela forma
como cumpre os objetivos levantados e tambm a capacidade de fornecimento
de dados e informaes de maneira adequada, levando em considerao o seu
formato, tempo e custo.
De maneira geral, os sistemas de informao tm como objetivo fornecer
informaes a partir de dados brutos, de maneira rpida e eficiente para o usurio
que estiver se privilegiando do seu uso.
Os autores Gouveia e Ranito(2004) apresentam, em seu trabalho, as funes dos
sistemas de informao:
coleta de informao: garantir a entrada dos dados do sistema;
armazenamento da informao: assegurar o registro dos dados
necessrios ao sistema;
processamento da informao: prover resposta s exigncias de dados e
informao para suporte do sistema;
representao da informao: permitir uma percepo com qualidade
dos dados e informao disponvel no sistema;
distribuio da informao: assegurar o fluxo de dados e de informaes
no sistema.

O poder da informao e do conhecimento nas organizaes

28

Para suportar o desenvolvimento de sistemas de informao, Almeida(1998)


apresenta uma metodologia para o seu planejamento que pode ser resumida
naFigura 2:
Figura 2 - Metodologia para Planejamento de SI
Viso Estratgica
Engenharia de Processos de Negcios
Engenharia da Informao
Dados Corporativos
Modularizao
Priorizao

Plano de Ao
Fonte: Almeida(1998).

Percebese que o primeiro passo no planejamento de um sistema de informao est


centrado no levantamento da viso estratgica, a partir do estudo da organizao, o
prximo passo a criao da definio de todos os processos que so desenvolvidos
nos vrios setores da organizao, naFigura2 essa etapa representada pelo
quadrado Engenharia de Processos de Negcios(ALMEIDA, 1998).
Da mesma forma que na engenharia de software, inicialmente, fazse o
levantamento dos requisitos do sistema a partir das necessidades do cliente e do
usurio dos sistemas. No planejamento do sistema de informao no diferente,
podese perceber isso no fato dos dois processos iniciais(levantamento da viso
estratgica da organizao e engenharia de processo de negcio) serem focados no
entendimento da organizao, seus processos e necessidades. A partir dessas duas
etapas, so facilmente levantados os requisitos para o desenvolvimento do sistema
de informao que ir auxiliar o processo decisrio da organizao em questo.
O quadrado apresentado na Figura 2 e intitulado de Engenharia de Informao,
como o prprio nome sugere, focado nas informaes que sero consumidas e
geradas pelo SI. Essa etapa dividia em 3 outras etapas, as quais so:
Dados corporativos: so relevantes para a organizao, eles
representam a entrada principal para a gerao da informao por
parte do SI. Esses dados e informaes devem atender a todos os
processos levantados anteriormente;

Ps-graduao

29

Modularizao: nessa fase construda a estrutura informacional da


organizao(ALMEIDA, 1998). onde as fontes so organizadas;
Priorizao: nesta ltima fase analisase qual dos grupos de informaes
levantados na fase anterior mais prioritrio, ou seja, os mdulos de
informao so organizados por prioridade, para poder gerenciar as
fontes de uma maneira mais efetiva.
A ltima etapa o Plano de ao, segundo Almeida(1998), esse plano o
resultado do encadeamento das informaes obtidas nas fases anteriores,
objetivando a apresentao das diretrizes e metas para o desenvolvimento do SI.
O uso dos sistemas de informao muito importante para a organizao, como j
foi visto nesta leitura, mas existem outros componentes que so to importantes
quanto o prprio SI para o seu sucesso. A Figura 3 ilustra melhor esta afirmao:
Figura 3 - Composio de um sistema de informao
Ambiente externo

Gesto de
atividades

Pessoas
Sistema de
informao

Tecnologia

Fonte: Gouveia e Ranito(2004).

O recurso humano tem uma grande importncia para os sistemas de informao,


seja tomadores de deciso, produtores de informao e construtores de
conhecimento, entre outros, pois so vistos como peas fundamentais para o SI.
Analisando a Figura 3, percebese claramente que sem a combinao das pessoas,
com a tecnologia e a gesto das atividades, a organizao no ter um sistema de
informao atuando efetivamente.
Concluise que a informao estratgica para a camada tomadora de deciso,
eque os sistemas de informao so um meio para se chegar at elas. Percebese
que o uso de sistemas de informao de maneira s no eficiente, necessrio
a participao de pessoas qualificadas e ter uma gesto das atividades que sero
apoiadas com a sada do SI.

O poder da informao e do conhecimento nas organizaes

30

Referncias
ALMEIDA, Adiel Teixeira de. Um modelo de deciso para a priorizao no planejamento de
sistemas de informao. Prod., So Paulo, v. 8, n. 2, Dec. 1998. Available from <http://www.
scielo.br/scielo.php?script=sci_arttext&pid=S010365131998000200003&lng=en&nrm=iso>.
Acessado em 15 Dez. 2011
AXELROD, R.; COHEN, M. D. Harnessing Complexity: Organizational Implications of a
Scientific Frontier. Free Press, New York, 1999.
BIO, Srgio Rodrigues. Sistemas de informao: um enfoque gerencial. So Paulo: Atlas, 1996.
CECI, Flavio. O conhecimento nas organizaes como um sistema adaptativo complexo. In:
ROVER, Aires J.; CARVALHO Marisa A..(Org.). O sujeito do conhecimento na sociedade em
rede. 001 ed. Florianpolis: Editora: Fundao Jos Arthur Boiteux, 2010, v. 001, p. 2072010
GORDON, Steven R.; GORDON, Judith. Sistemas de informao: uma abordagem gerencial.
3. ed. Rio de Janeiro: LTC, 2006.
GOUVEIA, Lus B.; RANITO, Joo. Sistemas de informao de apoio gesto. Porto,
Portugal: Sociedade Portuguesa de Inovao, 2004.
LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de informao gerenciais: administrando
a empresa digital. So Paulo: Prentice Hall, 2001.
MAAS, Antonio Vico. Administrao de sistemas de informao. So Paulo: rica, 1999.

Ps-graduao

31

Classificao dos sistemas de informao


Glucio Adriano Fontana e Flvio Ceci

Os sistemas de informao nas empresas podem ser classificados de muitas maneiras,


representando diferentes possibilidades de uso. Uma classificao, apresentada
por Laudon e Laudon(2001) feita por meio dos nveis hierrquicos, aos quais os
sistemas de informao do suporte operacional, gerencial ou estratgico.
Os Sistemas de Nvel Operacional so direcionados ao suporte das atividades
fins da empresa, acompanhando a rotina, indicando o nvel das vendas, compras,
fluxo de caixa, emisso de notas fiscais. Esses sistemas esto ligados diretamente
s operaes e ao dia a dia, e so denominados Sistemas de Informaes
Transacionais(SIT), formando a base de informaes para os Sistemas de
Informaes Gerenciais(SIG) e Sistemas de Apoio Deciso(SAD).
Os Sistemas de Nvel Gerencial so direcionados ao controle e monitoramento das
atividades relacionadas ao nvel operacional, indicando simulaes de cenrios
estruturados, sendo um sistema direcionado mdia gerncia, e podem ser
divididos em dois tipos de sistemas: os Sistemas de Informaes Gerenciais(SIG),
que so destinados ao suporte de atividades, agregando dados internos e
apresentando resumos das transaes operacionais, permitindo acompanhar o
andamento e comparar desempenhos e os Sistemas de Apoio Deciso(SAD),
direcionados a apoiar a deciso em situaes no rotineiras e semiestruturadas.
Os Sistemas de Nvel Estratgico so direcionados para situaes e decises
no estruturadas, tais como: tendncia, posicionamento da empresa, mudanas
no ambiente interno ou externo, e so classificados como Sistemas de Suporte
aos Executivos(SSE), com base na comunicao e utilizao de informaes
externas(LAUDON; LAUDON, 2001).
Os sistemas de informao esto presentes em vrios nveis da organizao,
afigura a seguir ilustra est afirmao:

O poder da informao e do conhecimento nas organizaes

32

Figura 1 - SI em relao com a hierarquia organizacional

Apoio s
Estratgias para
Vantagem Competitiva

Apoio Tomada de Deciso Empresarial

Apoio s Operaes e aos Processos


Fonte: OBrien, 2004 apud Oliveira; Carreira; Moreti, 2009.

Os sistemas transacionais ou de apoio operao esto atuando diretamente


sobre a base da pirmide, onde se tem como objetivo atuar junto base de
dados operacional, automatizando tarefas. A camada de Apoio Tomada de
Deciso Empresarial coberta pelos sistemas de apoio deciso, que procuram
prover ferramentas para auxiliar as decises organizacionais. O nvel mais alto da
pirmide conta com o Apoio s Estratgias para Vantagem Competitiva, nesse
caso, tambm se faz uso dos sistemas de apoio deciso, mas esse no busca
reforar as decises operacionais, mas as estratgicas, ou seja, centrado na
camada gerencial da organizao.(OLIVEIRA; CARREIRA; MORETI, 2009).

Tipos de Sistemas de Informao


As organizaes utilizam vrios tipos de Sistemas de Informao porque esses
possuem funes diferentes, embora possam funcionar em conjunto, suportando
uns aos outros, isto , fornecendo informaes entre si. Os sistemas foram
classificados de acordo com seus objetivos e tipos de informaes que manipulam
e podem ser classificados em mais de um tipo.
Segundo Oliveira, Carreira e Moreti(2009), a visualizao dos tipos de sistemas
operacionais a partir de um organograma auxilia no seu entendimento:

Ps-graduao

33

Figura 2 - Tipos de Sistemas de Informaes


Sistemas de
Informao

Apoio s
Operaes

Sistemas de
Apoio s
Operaes

Apoio

Sistema de
Tomada de
Apoio Gerencial Deciso Gerencial

Sistema de
Processamento
de Transaes

Sistemas de
Controle
de Processos

Sistemas de
Colaborativos

Sistemas de
Informao
Gerencial

Sistemas de
Apoio
Deciso

Sistemas de
Informao
Executiva

Processamento
de Transaes

Controle de
Processos
Industriais

Colaborao entre
Equipes e Grupos
de Trabalho

Relatrios
Padronizados
para os Gerentes

Apoio Interativo
Deciso

Informao
Elaborada
Especificamente
para Executivos

Fonte: OBrien, 2004 apud Oliveira; Carreira; Moreti, 2009.

Percebese que a Figura 2 est dividindo os sistemas de informao pela sua


aplicao dentro da organizao, no nvel logo abaixo da caixa Sistemas de
informao, vse a diviso por apoio s operaes da organizao ou apoio
tomada de deciso gerencial.
Abaixo da caixa dos sistemas de apoio s operaes esto os sistemas de
processamento de transao, de controle de processos e os colaborativos.
Elesatuam diretamente sobre os dados operacionais armazenados nos bancos de
dados da organizao, entregam para os usurios dados resultantes de consultas
e informaes para apoio operacional.
Os sistemas de apoio deciso esto diretamente ligados com a camada gerencial
da organizao, a que est ligada s atividades estratgicas. Esses sistemas atuam
sobre repositrio de dados dimensionais(data warehouses) e bases de dados com
valores consolidados, a fim de facilitar a entrega de informaes estratgicas para
apoio deciso.

O poder da informao e do conhecimento nas organizaes

34

Sistemas de Informao Transacionais


Os sistemas de informao transacionais so os mais simples e os mais comuns
nas organizaes. Eles apoiam as funes operacionais da organizao, aquelas
realizadas no dia a dia. Por isso, so facilmente identificados no nvel operacional
da organizao(fechamento de um pedido, matrcula de um aluno, emisso de
uma receita mdica, dar baixa no estoque, emitir uma nota fiscal etc.).
Geralmente, so os primeiros a serem implantados, apesar de essa no ser
necessariamente uma regra. A razo que so os mais fceis e baratos de
serem implementados(ou adquiridos), alm de darem origem aos sistemas mais
avanados(gerenciais e de apoio deciso). As informaes tm de ser reunidas
earmazenadas de alguma maneira!
Esses sistemas tm por objetivo processar dados, isto , fazer clculos, armazenar
e recuperar dados(consultas simples), ordenar e apresentar de forma simples
dados para os usurios. Seu benefcio principal a agilizao nas rotinas e tarefas,
incluindo documentao rpida e eficiente, busca acelerada de informaes
e clculos rpidos e precisos. Outros benefcios podem ser conseguidos com
esse tipo de sistema, como, por exemplo, confiabilidade, reduo de pessoal e
custos e melhor comunicao(interna entre setores ou externa com clientes
efornecedores). Incluemse entre eles: sistemas de cadastro em geral(incluso,
excluso, alterao e consulta), como de clientes, produtos e fornecedores;
ossistemas de contabilidade(contas a pagar e a receber, balanos, fluxo de caixa,
etc.); sistemas de vendas e distribuio(pedidos, entregas), folha de pagamento,
controle de estoque.
Dois casos especiais de SIs rotineiros, de acordo com Loh(2009), so:
os sistemas de gesto empresarial(ERP): responsveis por administrar,
automatizar ou apoiar todos os processos de uma organizao de
formaintegrada;
os sistemas de automao comercial: que incluem apoio s vendas,
estoque e contabilidade, com uso de terminais ponto de venda(PDV) e
centrais automatizadas, como se v em supermercados e lojas em geral.
No mercado, hoje, existem inmeros pacotes de software prontos(j
implementados) para serem adquiridos, a preos bem acessveis, o que pode ser
mais vantajoso do que desenvolver o software por conta prpria ou com terceiros.

Ps-graduao

35

Sistemas de Informaes Gerenciais e Sistemas de Informao


Executiva
Como o prprio nome diz, os SIGs surgiram com o intuito de auxiliar gerentes em
suas funes. Com o passar do tempo, esse tipo de sistema acabou sendo usado
por qualquer funcionrio que tome decises.
Eles atuam como um espelho de um setor, dando uma ideia das atividades
sumarizadas de um departamento.
O objetivo de um SIG fornecer informaes para a tomada de decises, ou
seja, so sistemas que fornecem relatrios. O usurio deve solicitar, de alguma
forma,(escolha por menus, uso de comandos etc.) a informao de que
necessita e o SIG procura tal informao em seus registros, apresentandoa da
melhor maneira possvel ao usurio. Essa maneira pode ser textual(relatrios
descritivos), por planilhas ou de modo grfico. Esse ltimo caso o preferido
pelos administradores, pois oferece mais informaes em menor espao(uma
figura vale por mil palavras), por meio de grficos.
importante que o relatrio tenha o nvel de detalhe adequado ao usurio:
no pode ser muito detalhado ou extenso, de modo a facilitar o uso do gestor.
Oresumo em abundncia deve ser evitado para no correr riscos de omisso de
detalhes importantes para a tomada de deciso. Os SIGs aparecem nos 3 nveis
da pirmide administrativa(estratgico, ttico e operacional), sempre que houver
alguma deciso sendo tomada(LOH, 2009).
Um caso especial de SIG so os EIS(Executive Information Systems), que
possibilitam diferentes vises dos dados de uma organizao, por meio de
operaes tipo zoom. Por exemplo, em uma empresa que fabrica produtos de
beleza, podese ver a produo por filial ou por regio ou ento analisar em
detalhe o desempenho de cada gerente de produo(zoom in). Por outro lado,
podese verificar a produo por produto especfico ou por categorias de produto.
Os EIS, do ponto de vista segmentado:
Coleta: os dados so coletados de fontes internas e externas.
Processamento: programas que disponibilizam resumos, grficos de
modo a transformar a mesa do executivo em um centro de controle.
Disponibilizam tambm meios de comunicao para comentar decises
com outros executivos.
Armazenamento: os dados armazenados devem espelhar a situao
atuale as tendncias.

O poder da informao e do conhecimento nas organizaes

36

Distribuio: geram relatrios e grficos que permitem ter o controle e


tomar decises.
Feedback: permite obter relatrios que indicam desvios dos objetivos.

Sistemas de Apoio Deciso


Um SAD recebe, como entrada, alternativas para soluo de um problema e
devolve as consequncias para cada alternativa. Assim, o administrador pode
avaliar qual a melhor alternativa. O SAD no decide qual a melhor deciso,
nemindica que alternativas existem.
A diferena para o SIG que um SAD interativo(o usurio pode entrar com
vrias alternativas) e ainda avalia as alternativas por meio de tcnicas de
whatif(= e se eu fizer isso, o que acontecer... tipo de anlise que testa
mudana das variveis e suas consequncias), tais como projeo e regresso.
Em Loh(2009) dado um exemplo: qual o preo final de um produto? Para
responder a essa pergunta, podemos utilizar as seguintes frmulas:
Lucro = receitas total despesas
Receitas = quantidade vendida X preo final
Preo final = custo unitrio X margem de lucro
Total de despesas = custo de produo + despesas gerais
Custo de produo = quantidade produzida X custo unitrio
Percebese que os sistemas de apoio deciso so a resposta para os problemas
da falta de agilidade na tomada de deciso por parte da camada gerencial das
organizaes. Esses sistemas cada vez mais estaro presentes nas empresas,
damesma forma que os sistemas de informaes transacionais fazem parte do
cotidiano de praticamente todos os segmentos.

Referncias
LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de informao gerenciais: administrando
a empresa digital. So Paulo: Prentice Hall, 2001.
LOH, Stanley. Material das disciplinas de Sistemas de Informao e Data Mining.
Disponvel em: atlas.ucpel.tche.br/~loh/. Acesso em: jul. 2009.
OLIVEIRA, Andr Luis B.; CARREIRA, Marcio Luis; MORETI, Thiago Moura. Aprimorando a
gesto de negcios com a utilizao de tecnologias de informao. Revista de Cincias
Gerenciais. Vol XIII, N 17, 2009.
Ps-graduao

37

Sistemas de apoio deciso


Flvio Ceci

Os sistemas de informao so, para as organizaes, uma poderosa ferramenta


para a gesto das suas operaes cotidianas, bem como para auxiliar a tomada
de deciso. Na leitura anterior, podese verificar que os sistemas de informao
possuem vrios tipos de classificao, talvez a mais natural seja pela sua atividade
foco. Tendo em vista essa classificao, temse, inicialmente, dois principais grupos
de sistemas de informao, quais so:
Sistemas de apoio s operaes: sistemas caracterizados por apoiar as
atividades operacionais da organizao, ou seja, auxiliar os processos no
nvel de transaes, como por exemplo: controle de estoque, contas a
receber, cadastro de clientes, entre outros.
Sistemas de apoio gerencial: so sistemas focados no auxilio a atividades
estratgicas da organizao, apoiando a camada tomadora de deciso.
Atualmente, muitas organizaes, independente do seu tamanho(de pequeno,
mdio ou grande porte), possuem sistemas de apoio as suas operaes,
omotivo para tal pela vasta quantidade de sistemas j desenvolvidos para os
inmeros segmentos com preos acessveis. Tento as operaes e transaes da
organizao suportadas por sistemas de informao, passouse a buscar solues
computacionais para apoiar as decises de maneira estratgica.
Segundo Gouveia e Ranito(2004), as organizaes atuais competem entre si para
entregar solues aos clientes de maneira mais eficiente, de modo que o produto
e/ou servio seja de maior qualidade e de baixo custo, informaes que possam
auxiliar nessas solues so tidas como estratgicas e de muito valor para a
tomada de deciso.
At aqui se fala muito em tomada de deciso, mas o que so decises?
ParaBidgole(1989) e Mittra(1996) apud Barbosa e Almeida(2002), podese
classificar decises da seguinte forma:
Deciso estruturada: possui procedimentos operacionais padro, bem
definidos e muito bem projetados. Conta com sistemas de informao
simples, programveis e baseado em lgica clssica, fatos e resultados
bem definidos, voltados para camada mais de base da organizao.
Deciso semiestruturada: no possui procedimento bem definidos, mas
inclui aspectos de estruturao. Podese contar em partes com o apoio
de sistemas de informao.
Deciso no estruturada: no possuem qualquer padro de procedimento
operacional. Conta fortemente com a intuio, experincia do tomador de
deciso. So difceis de formalizar, envolvem heursticas, tentativas e erro.

O poder da informao e do conhecimento nas organizaes

38

O processo de tomada de deciso teve um modelo desenvolvido por Simon(1960)


apud Cabral(2001), que dividido em 3 fases iterativas e interativas:
reconhecimento: consiste no levantamento do problema ou
oportunidade de mudana;
desenho: consiste na verificao e na estruturao das decises opcionais;
escolha: relacionase com as avaliaes e com a escolha da melhor alternativa.
Para ilustrar a interao entre as trs fases do processo de tomada de deciso
Cabral(2001) apresenta a seguinte figura:
Figura 1 - Interao entre as fases da tomada de deciso
Reconhecimento

Desenho

Escolha
Fonte: Cabral, 2001.

Pela anlise da figura acima, facilmente percebido o motivo para a


caracterizao das fases como iterativas e interativas, por exemplo, um
gestor percebe que determinado produto no est gerando lucros para a
organizao(fase de reconhecimento), a partir dessa informao, ele levanta as
possveis alternativas para o problema em questo(fase de desenho), o ponto
que em algumas dessas alternativas podese verificar que ser gerado outro
problema ou oportunidade. Com isso, fazse necessrio que voltemos para a etapa
de Reconhecimento, aps levantar todas as possibilidades, o gestor pode tomar
uma deciso(fase de escolha). Se a deciso resolver o problema em questo,
finalizase o processo de deciso, caso contrrio, podese voltar para a fase inicial.
Segundo Heinzle, Gauthier e Fialho(2010), a tomada de deciso podese definir
como um processo que consiste em optar(escolher) uma, ou algumas, entre
vrias alternativas para a realizao de uma ao, levando em considerao os
possveis reflexos presentes e futuros que a escolha pode gerar.
Como j foi apresentado anteriormente, os sistemas de apoio deciso so os
sistemas de informao responsveis a auxiliar os gestores das organizaes na
etapa de tomada de deciso.

Ps-graduao

39

Os sistemas de apoio deciso(SAD) comearam a surgir no final da dcada de60,


mas somente em 1971 esse termo foi apresentado numa publicao de Gorry
e Scottmorton. Nos anos seguintes, o desenvolvimento deste tipo de sistema
tornouse muito comum, acarretando em evolues muito significativas para a
rea. Na dcada de 80, com a popularizao do uso dos computadores devido
significativa reduo do preo do software e do hardware, as organizaes
passaram a utilizar computadores para auxiliar no seu ambiente de trabalho,
dessamaneira, os gestores tinham condio de ter os seus sistemas de apoio
deciso personalizados realidade da sua empresa(CABRAL, 2001).
Segundo Barbosa e Almeida(2002), os sistemas de apoio deciso tm como
objetivo dar suporte aos processos decisrios que apresentam problemas de
estruturao, alm de apresentarem caractersticas tecnolgicas estruturais e
de utilizao especfica. Os SAD visam a apoiar decises semi e no estruturadas.
Para Heinzle, Gauthier e Fialho(2010), os SAD so sistemas computadorizados
que possibilitam comparar, analisar, sumular e apoiar a escolha de alternativas,
com base na criao de cenrios que incluem um significativo nmero de variveis
relacionadas ao domnio de um processo decisrio.
Laudon(2001) chama os SAD como sistemas de suporte a deciso. Em seu
trabalho, ele apresenta algumas caractersticas que diferenciam esse tipo de
sistema dos demais tipos de sistemas de informao:
Disponibilizar para o usurio flexibilidade, e respostas rpidas;
Permitir iniciar e controlar os processos de entrada e sada;
Funcionar com pouco ou nenhum suporte de programadores;
Permitir apoio para as decises e problemas para os quais as solues
no podem ser identificadas previamente;
Utilizarse de anlises sofisticadas e de ferramentas de modelagem.
Ainda sobre as caractersticas dos sistemas de apoio deciso, Turban(1990) apud
Cabral(2001) apresentam outras caractersticas:
Incorporam modelos e dados;
So sistemas focados em auxiliar o gestor na tomada de deciso a
problemas semiestruturados e no estruturados;
Do suporte tomada de deciso, mas dependem da avaliao do gestor;
O objetivo melhorar a qualidade das decises e no a eficincia em que
as decises so tomadas.
Os sistemas de apoio deciso possuem uma arquitetura bsica. Segundo
Heinzle(2010), a arquitetura composta por trs subsistemas:

O poder da informao e do conhecimento nas organizaes

40

Subsistema de dados: composto pelo gerenciador de dados, que tem


como responsabilidade a construo e gerncia do banco de dados,
que possui dados relacionados com o domnio do problema. Nesse
subsistema esto contemplados sistemas de extrao, transformao
e carga de dados. Tambm se pode utilizar de repositrios de dados ao
estilo Data Warehouse.
Subsistema de modelos: composto pelo banco de modelos e seu
gerenciamento. Neste subsistema esto as estratgias analticas
que atuam sobre os dados disponibilizados pelo subsistema de
dados. Tambm podem existir motores de inferncia para auxiliar o
processamento dos dados, gerando informaes e conhecimentos
valiosos para a etapa de tomada de deciso.
Subsistema de interface: como o prprio nome sugere, responsvel
pela interao entre o sistema e o usurio. Oferece, por meio de uma
interface grfica, componentes para auxiliar a anlise das informaes
processadas no subsistema de modelo. Esse subsistema tambm pode
suportar processadores de linguagens naturais.
A figura 2 apresenta como os subsistemas se interagem na arquitetura de um SAD:
Figura 2 - Arquitetura de um SAD
Sistema de Apoio Deciso
Dados Internos
e Externos

Modelos Internos
e Externos
Banco de
Dados

Banco de
Modelos

Gerenciador
de Dados

Gerenciador
de Modelos
Software
SAD
Interface

Usurio
Fonte: Sprague e Watson(1989) apud Heinzle(2010).

Ps-graduao

41

Como se pode observar na Figura 2, todas as requisies so feitas ao subsistema


de interface, que pode acessar diretamente o subsistema de dados para
apresentar o resultado de uma consulta, ou ainda aplicar um processo de anlise
sobre os dados, a fim de gerar informaes mais relevantes, que auxiliem no
processo decisrio.
Atualmente, a implementao dessa arquitetura mais utilizada a de Business
Intelligence(BI) que, segundo Fourlan e Gonalves Filho(2005), a evoluo dos
sistemas de apoio deciso.
A Figura 3 apresenta uma arquitetura de BI e como o seu fluxo de carga dos
dados, a partir dos sistemas de informao da organizao:
Figura 3 - Arquitetura de BI
Data Mining
ERP
Sistema de
Gesto da Empresa

Fonte de
dados
Operacionais
Data
Warehouse
Fonte de
dados
Operacionais

OLAP
Metadados
Metadados
Metadados

Business Intelligence
Fonte: Fourlan; Gonalves Filho, 2005.

A arquitetura de BI traz alternativas para os trs subsistemas apresentados na


arquitetura clssica dos sistemas de apoio deciso.
No subsistema de dados so utilizados geralmente repositrios do tipo Data
Warehouse, esses, geralmente, utilizamse da modelagem dimensional. A partir
dos dados operacionais provenientes dos sistemas de informao da organizao,
organizaos na forma de dimenses e fatos para auxiliar a etapa de analise.
Os subsistemas de modelo da arquitetura clssica de SAD so atendidos por
ferramentas de minerao de dados(Data mining), essas tm como funo explicitar
as informaes e conhecimentos implcitos nas bases de dados da organizao.

O poder da informao e do conhecimento nas organizaes

42

O ltimo dos trs subsistemas da arquitetura clssica de SAD, o subsistema de


interface, representado na arquitetura de BI pelas ferramentas OLAP, que so
responsveis pela apresentao e pelo cruzamento das informaes, a fim de
apoiar o processo decisrio.

Referncias
BARBOSA, Gilka Rocha; ALMEIDA, Adiel Teixeira de. Sistemas de apoio deciso sob o
enfoque de profissionais de TI e de decisores. XXII Encontro Nacional de Engenharia de
Produo. Curitiba, 2002.
CABRAL, Pedro da Costa Brito. Sistemas espaciais de apoio deciso O Sistema de
Apoio ao Licenciamento da Direo Regional do Ambiente do Alentejo. Dissertao para
obteno do grau de Mestre em Sistemas de Informao Geogrfica. Universidade Tcnica
de Lisboa. Portugal, 2001.
FOURLAN, Marcos Roberto; GONALVES FILHO, Eduardo V. Uma proposta de aplicao de
Business Intelligence no chodefbrica. Gesto e Produo. V.12, n.1, p. 5566, 2005.
GOUVEIA, Lus B.; RANITO, Joo. Sistemas de informao de apoio gesto. Porto,
Portugal: Sociedade Portuguesa de Inovao, 2004.
HEINZLE, Roberto. Um modelo de engenharia de conhecimento para sistemas de apoio
deciso com recursos para raciocnio abdutivo. Tese para obteno do grau de Doutor
em Engenharia e Gesto do Conhecimento. Universidade Federal de Santa Catarina.
Florianpolis, 2010.
HEINZLE, Roberto; GAUTHIER, Fernando A. Ostuni; FIALHO, Francisco Antonio P.
Semntica nos sistemas de apoio deciso: o estado da arte. Revista da Unifebe, v. 1,
p.Artigo 14, 2010.
LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de informao gerenciais: administrando
a empresa digital. So Paulo: Prentice Hall, 2001.

Ps-graduao

43

Atividades de Autoaprendizagem
1) Levando em considerao o contedo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:
a. ( ) As ontologias so estruturas formadas para representao de dados.
b. ( ) O processo de sntese utilizado na transformao da informao para
oconhecimento.
c. ( ) O paradigma de transporte demonstrou, ao longo do tempo, sua
eficincia e utilizado at hoje na Nova Engenharia do Conhecimento.
d. ( ) Os Sistemas de Informao possuem uma classificao muito bem definida.
e. ( ) A arquitetura clssica de um Sistema de Apoio Deciso composta por
trs subsistemas: de dados, de modelo e de interface.
f. ( ) Podese afirmar que Business Intelligence uma evoluo de sistemas de
apoio deciso.
g. ( ) O subsistema de modelo da arquitetura clssica de SAD equivalente ao
Data Warehouse da arquitetura de BI.
h. ( ) Uma organizao pode ser vista como um sistema, desde que ela faa uso
de computadores.

Atividade colaborativa
Nesta unidade, voc estudou uma srie de conceitos relacionados com sistemas
de informao e de apoio deciso. Responda pergunta a seguir utilizando a
ferramenta Frum, no se esquea de comentar as respostas dos seus colegas.
O uso de dados disponveis na Web(como por exemplo, em mdias sociais) pode
auxiliar os sistemas de apoio deciso na entrega de uma informao mais
estratgica para a organizao?

O poder da informao e do conhecimento nas organizaes

44

Sntese
Nesta unidade foi apresentada uma viso geral entre dado, informao e
conhecimento, quais as suas fronteiras e sua aplicabilidade. Aps isso, foi visto o
que so sistemas de informao, qual a sua utilidade e como se pode classificlos.
Por fim, foi apresentada uma viso geral sobre os sistemas de apoio deciso e
como eles podem agregar valor camada gerencial das organizaes.

Saiba Mais
Artigos muito interessantes que valem a pena serem lidos para complementar o
estudo desta unidade.
HEINZLE, Roberto; GAUTHIER, Fernando A. Ostuni; FIALHO, Francisco Antonio
P. Semntica nos sistemas de apoio deciso: o estado da arte. Revista da
Unifebe, v. 1, p. Artigo 14, 2010. Disponvel em: <http://www.unifebe.edu.br/
revistadaunifebe/2010/artigo014.pdf>.
FOURLAN, Marcos Roberto; GONALVES FILHO, Eduardo V. Uma proposta de
aplicao de Business Intelligence no chodefbrica. Gesto e Produo. V.12, n.1,
p. 5566, 2005. Disponvel em: <http://www.scielo.br/pdf/%0D/gp/v12n1/a06v12n1.pdf>.

Ps-graduao

Unidade 2

Colocando inteligncia nos negcios

Objetivos de Aprendizagem
Assimilar conceitos bsicos de Business Intelligence;
Examinar a arquitetura bsica de um sistema de BI e suas partes;
Identificar o BI em diferentes meios.

Introduo
As organizaes esto inseridas num cenrio que est em constante modificao
e mutao. Teorias baseadas na ideia da complexidade so aplicadas sobre o
modelo organizacional, para terse um melhor entendimento e uma possvel
previso de modificao em curto prazo.
Esse contexto, combinado com a crescente quantidade de dados digitais gerados
de maneira desordenada e distribuda em vrios setores da organizao, gera
uma srie de demandas para o departamento de TI, de modo que seja gerado
ferramental computacional para ajudar a camada gerencial no ganho de agilidade
na tomada de deciso.
As utilizaes de estratgias de BI esto cada vez mais presentes nas organizaes,
como suporte computacional para a camada tomadora de deciso, mas ser que
o BI por si s resolve os problemas citados anteriormente? E qual o futuro do BI,
ser que existem pesquisadores que esto pensando em sua evoluo de modo a
sempre acompanhar as tendncias do mercado? Este captulo tem como objetivo
dissertar sobre essas perguntas.

46

O que Business Intelligence?


Flvio Ceci

Nesta leitura, so apresentados mais detalhes sobre Business Intelligence(BI), os


seus pontos histricos, sua evoluo, objetivos, entre outras informaes relevantes.
As constantes mudanas nas relaes econmicas afetam substancialmente a
administrao das organizaes, que so obrigadas a buscar meios para garantir sua
sobrevivncia, melhorarem o desempenho empresarial e, com isso, promover seu
crescimento em mercados cada vez mais competitivos. Ao afetarem o ambiente
empresarial, essas mudanas fazem as organizaes repensarem sua estrutura para
se adaptar s novas exigncias do mercado(GORDON; GORDON, 2006).
Ainda conforme Gordon e Gordon(2006), a TI permite que as pessoas, grupos
e organizaes faam a gesto de suas informaes de maneira eficiente. A TI
possui a capacidade de atuar diretamente sobre a necessidade de uma melhora na
qualidade e disponibilidade de informaes e conhecimento organizacionais, alm
de oferecer oportunidades sem precedentes para melhoria dos processos internos
e dos servios prestados ao consumidor final, devese ao fato de que Avanos
significativos na tecnologia de informao tornaram possvel obter, gerir e usar
quantidades enormes de informao a um custo relativamente baixo(GORDON;
GORDON, 2006, p.5).
Nesse contexto, entre os recursos tecnolgicos, a Tecnologia da Informao(TI)
tem sido considerada como um fator importante para potencializar o
desenvolvimento dos processos produtivos e da gesto das organizaes.
Aplicar inteligncia a negcios no sinnimo de TI, como vastamente confundido,
mas significa que a primeira no vive sem a segunda. importante entender que
a TI prove ferramental para que a camada gerencial possa tomar as decises.
Podese fazer uma analogia com a relao que existe entre a engenharia do
conhecimento e a gesto do conhecimento. A engenharia do conhecimento
responsvel por gerar ferramental computacional e metodolgico para apoiar os
processos da gesto do conhecimento.

Histrico
O termo Business Intelligence foi patenteado pela empresa Gartner, mas, na
prtica, esse conceito j era aplicado muito antes do invento dos computadores,
pelos povos antigos. A sociedade do Oriente Mdio antigo utilizavase dos
princpios bsicos de BI quando cruzavam informaes obtidas pela natureza

Ps-graduao

47

para auxiliar na tomada de deciso das aldeias. A anlise do comportamento


das mars, o levantamento dos perodos chuvosos e de seca, a movimentao e
posicionamento dos astros era a forma de obter informaes que serviam de base
para a tomada de decises importantes para a comunidade(PRIMAK, 2010).
No contexto computacional, a partir da dcada de 70 os pacotes de softwares
analticos comeam a surgir no mercado, esses pacotes de dados trabalhavam na
gesto dos dados transacionais. Na dcada de 90, as planilhas eletrnicas, como
Lotus 123 e, posteriormente, o Excel, facilitaram ainda mais a anlise de dados,
possibilitando a utilizao de filtros e a construo de grficos de maneira simples.
As planilhas eletrnicas fizeram tanto sucesso que so utilizadas at hoje pelas
empresas. O uso de consultas utilizando SQL possibilitou ainda o desenvolvimento
de sistemas baseados em modelos relacionais e, posteriormente, em modelos
dimensionais, dando suporte a arquitetura de BI(RASMUSSEN; GOLDY; SOLLI, 2002).
Figura 1 Evoluo a partir de relatrios estticos para business intelligence
Alto

Interao com o usurio

2002

1996

Aconselhar - Minerao de Dados

Anlise - Processamento analtico online


1992
Investigao - Sistemas de Informao Executiva
1985

Baixo

Ao - BI

Agregao - Sistemas de Informao Gerencial

Relatrios
Baixo

Recursos analticos

Alto

Fonte: Adaptado de Rasmussen, Goldy e Solli(2002).

A Figura 1 apresenta a evoluo dos recursos analticos em relao possibilidade


de interao dos usurios na anlise em questo. Analisando a figura acima, vse
que os primeiros recursos analticos apresentados so os relatrios.
Os relatrios so utilizados at hoje pelas organizaes, o seu uso possibilita a
apresentao de dados e informaes de maneira esttica, basicamente uma
fotografia de um cenrio ou situao. A interao com o usurio muito baixa,
permitindo apenas o consumo do seu contedo.

Colocando inteligncia nos negcios

48

Entre a dcada de 80 e 90 surgem os recursos analticos classificados como de


agregao(sistemas de informao gerencial) e de investigao(sistemas de
informaes executivas), esses recursos permitem uma interao com o usurio
maior, possvel entrar com consultas, o que permitia uma melhor investigao
dos fatos nas informaes retornadas pelos sistemas de informao.
importante ressaltar que a partir da dcada de 90 surge a necessidade das
organizaes serem capazes de fazer anlises e planejamentos de modo a reagir
a mudanas dos negcios rapidamente. O motivo para tal um mercado cada vez
mais competitivo e um consumidor cada vez mais exigente(SASSI, 2010).
A partir de meados da dcada de 90, percebese mais duas caractersticas
dos recursos analticos, o de anlise(OLAP) e o de aconselhar(minerao de
dados). Nesse perodo, so inseridas inteligncias nos sistemas de informao,
permitindo uma anlise muito mais detalhada, de modo que as tcnicas de
inteligncia artificial utilizadas possam explicitar muitas informaes estratgicas
para a camada tomadora de deciso.
Ainda a partir da dcada de 90, inserida a caracterstica de ao aos
recursos analticos, provendo uma grande interao por parte dos usurios.
Essacaracterstica possibilitada pelos sistemas construdos em cima de uma
arquitetura de business intelligence.

Definio
Percebese que as prticas de business intelligence representam uma das
abordagens mais modernas da evoluo dos sistemas de apoio s decises
tradicionais. Mas afinal, o que business intelligence?
Segundo Crtes(2002) apud Sell(2006), business intelligence um conjunto
de conceitos e metodologias que visam a apoiar a tomada de decises nos
negcios, a partir da transformao do dado em informao e da informao
emconhecimento.
Silva(2011, p.32), afirma que business intelligence:
consiste na transformao metdica e consciente dos dados
provenientes de quaisquer fontes de dados(estruturados e no
estruturados) em novas formas de proporcionar informao e
conhecimento dirigidos aos negcios e orientados aos resultados.

Ps-graduao

49

Podese conceituar BI tambm como a utilizao de vrias fontes de


informao para firmar estratgias de competitividade nos negcios da
organizao(NAPOLI, 2011).
Para Almeida et al.(1999) apud Sell(2006), BI objetiva usar os dados da
organizao para apoiar decises bem informadas, facilitando o acesso e a anlise
de dados, assim, possibilita a descoberta de novas oportunidades.
As ferramentas provenientes da arquitetura de BI podem fornecer uma viso
sistmica dos negcios da organizao, ajudando na distribuio uniforme dos
dados entre os usurios, tambm se pode definir BI como um guardachuva
conceitual, tendo em vista que tem como preocupao capturar dados,
informaes e conhecimentos que permitam a organizao agir com mais
eficincia em uma abordagem evolutiva de modelagem de dados, capaz de
promover a estruturao da informao em repositrios retrospectivos e
histricos(REGINATO; NASCIMENTO, 2007).
De acordo com Sharma e Gupta(2004) apud Sell(2006), implantaes
bemsucedidas de solues de BI proveem uma viso integrada do negcio,
estendem as capacidades analticas dos usurios e impulsionam a formao de
expertise nas organizaes.
O investimento em BI por parte das organizaes incentivado pela necessidade
de criao de um ambiente prativo para a tomada de deciso, com base nos seus
sistemas transacionais(SILVA, 2011).

Objetivos
O foco de solues de BI facilitar o entendimento do negcio das organizaes,
fornecendo a todos os nveis das organizaes informaes relevantes sobre
suas operaes internas e o ambiente externo, incluindo clientes e competidores,
parceiros e fornecedores(SELL, 2006). O ambiente externo inclui ainda variveis
independentes que possam impactar no negcio, como tecnologia, leis e
economia mundial, entre outros(BROHMAN et al., 2000 apud SELL 2006).
Segundo Napoli(2011), as tcnicas de BI objetivam definir regras e tcnicas para
a formatao adequada dos dados, tendo em vista a sua transformao em
depsitos estruturados de informaes, no levando em considerao a sua
origem. Para Reginato e Nascimento(2007), BI tem como objetivos transformar
grandes quantidades de dados em informaes de qualidade, para a tomada
de deciso, de modo a possibilitar uma viso sistmica do negcio e auxiliar na
distribuio uniforme dos dados entre os seus usurios.

Colocando inteligncia nos negcios

50

Ao analisar os objetivos da aplicao de solues de BI, fica claro como elas se


enquadram na arquitetura clssica de um sistema de apoio deciso, percebese
que muito dos objetivos so comuns. Como por exemplo, a preocupao
de tratamento dos dados e a transformao deles em informao ou a
disponibilizao dessa informao focada no processo decisrio pela camada
gerencial da organizao.
As aplicaes de BI podem auxiliar em vrios segmentos das organizaes,
segundo Xavier e Pereira(2009), essas aplicaes podem auxiliar a anlise de:
tendncias de transformao do mercado;
alteraes no comportamento de clientes e padres de consumo;
preferncias de clientes;
recursos das empresas;
condies de mercado.
Os autores ainda afirmam que sistemas de BI permitem que as organizaes:
coletem informaes sobre as tendncias do mercado e ofeream produtos e
servios inovadores, antecipando as transformaes das exigncias dos clientes.
importante ressaltar que as solues de BI acompanham a necessidade da
organizao, evoluindo conforme vo surgindo novos recursos, mdias e desafios.

Evoluo
A evoluo das solues de BI est relacionada com a evoluo do papel dos
sistemas de informao nas organizaes. Inicialmente, nos anos 70 e at
meados dos anos 80, solues de processamento e impresso de relatrios em
lote dominavam a cena do processo de apoio deciso. Os usurios tinham,
ento, que trabalhar sobre extensos relatrios para extrair elementos bsicos de
informao. Com a proliferao dos terminais de acesso aos mainframes, o acesso
aos relatrios digitais foi disseminado, mas o acesso informao era dificultado
devido complexidade dos sistemas da poca(SELL, 2006).
A segunda fase dos sistemas de apoio deciso marcada pelo surgimento do
Data Warehouse(DW), repositrios de dados integrados e preparados para o
apoio deciso, que, em conjunto com a evoluo das ferramentas analticas,
ofereceu performance e poder analtico para o nvel ttico e executivo nas
organizaes(INMON, 2002; KIMBALL et al., 1998).

Ps-graduao

51

A terceira fase corresponde ao surgimento do BI. Segundo Almeida et al.(1999)


apud Sell(2006), o foco do DW estava muito orientado tecnologia de
consolidao dos dados. Ainda segundo os autores, as vantagens de projetos de
BI em relao aos de DW so:
solues de BI no so orientadas unicamente aplicao de tecnologia
de informao de ltima gerao, mas tambm ao fornecimento de
solues que integram pacotes verticais de aplicativos e metodologias
para diversos segmentos de negcio;
o foco das solues de BI est no acesso e na distribuio de informao
para o apoio deciso; e solues de BI suportam o acesso a todos os
dados da organizao, estruturados e no estruturados, e no somente
aos armazenados no DW existe um foco na independncia.
O termo BI 2.0 vem sendo cada vez mais utilizados em notcias e artigos cientficos,
ele se refere a uma prxima gerao do BI que promete seguir a mesma linha da
web 2.0 e apostar nos dados colaborativos. Xavier e Pereira(2009) desenvolveram
o quadro a seguir, apresentando um comparativo entre BI 1.0 e BI 2.0:
Quadro 1 - Comparativo entre BI e BI 2.0
BI

BI 2.0

Consumo esttico de relatrios.

Comunidades de usurios dinmicas,


colaborao ativa e compartilhamento
imediato das informaes.

Envio e apresentao de relatrios


estticos para os usurios.

Fornecimento de informaes dinmicas


e interativas, com usurios elaborando
seus prprios relatrios ou assinando
as informaes de que necessitam.

Funo de alto custo e considerada


um luxo dentro da organizao.

Solues econmicas e rentveis


disponibilizadas para a empresa como um todo.

BI para uns poucos usurios especializados.

BI para todos dentro da organizao,


na medida em que for necessrio.

Relatrios orientados para a impresso.

Aplicaes de gerao de relatrios


interativas e baseadas na Web.

Grficos com barras estatsticas e


grficos circulares segmentados.

Visualizao de dados intuitiva,


dinmica e interativa.

OLAP para anlise.

OLAP junto a alternativas inovadoras,


menos complexas e de alto desempenho
e gerao ad hoc de relatrios.

Instalao, upgrade e uso complexos


e de alto consumo de tempo.

Instalao, upgrades e uso simplificados.

Relatrios baseados no desktop


ou em HTML estticos.

Relatrios integrados com eventos e


processos automatizados; relatrios
como servios na Web(via XML).

Colocando inteligncia nos negcios

52

BI

BI 2.0

Aplicaes de gerao de relatrios para


desktop, com ActiveX e smart client.

Aplicaes baseadas na Web com


ambientes de usurios ricos e interfaces
de usurios altamente interativas.

Parmetros de pesquisa predefinidos.

Pesquisas dinmicas ou de estilo


livre e explorao de dados.

Dados estruturados.

Conjunto ampliado de tipos de dados


suportados, inclusive dados no
estruturados e servios XML da Web,
assim como mixagem de seu contedo.

Fonte: Xavier e Pereira(2009).

Analisando o quadro desenvolvido por Xavier e Pereira(2009), percebese


que muitos dos pontos levantados como caractersticos do chamado BI 2.0 j
foram atendidos pelo BI tradicional. Essa classificao no oficial, mais
uma terminologia adotada por alguns autores para caracterizar a utilizao das
estratgias de BI ao longo dos anos e momentos.
Como caractersticas principais apresentadas no quadro podemse levantar:
Aumento da quantidade de usurio aplicao de BI na organizao(mais
setores a utilizam, tirando o foco somente da camada gerencial);
Aplicaes mais simples e intuitivas, com melhora no tempo de resposta;
Combinao dos dados dos repositrios da organizao com dados
disponveis na Web.
Na viso de Pintas e Siqueira(2011), a maior deficincia das solues tradicionais
de BI est na latncia entre o acontecimento do evento e a tomada de deciso.
Segundo os autores em questo, o BI 2.0 tem como foco atacar essa latncia.
Nesse contexto, os autores sugerem a adio de recursos semnticos para auxiliar
nessa tarefa.
A utilizao de semntica para auxiliar as solues de BI no uma ideia muito
nova. Sell(2006) apresenta em seu trabalho Uma arquitetura para business
intelligence baseada em tecnologias semnticas para suporte a aplicaes
analticas uma srie de informaes sobre essa abordagem. O autor apresenta
alguns requisitos funcionais para possibilitar o Semantic Business Intelligence:
RF001 Possibilitar a navegao sobre as fontes de dados a partir dos
conceitos do negcio e seus relacionamentos;
RF002 Permitir a utilizao s regras de negcio para apoiar o
processoanaltico;

Ps-graduao

53

RF003 Propiciar flexibilidade para modificaes dos conceitos de regras


do negcio;
RF004 Permitir a extenso s funcionalidades exploratrias a partir e
aplicaes existentes na Web ou na organizao;
RF005 Permitir a composio de servios para a extenso de
funcionalidades exploratrias;
RF006 Suportar recomendao proativa de recursos aos usurios para
apoiar o processamento analtico.
Tendo os requisitos a mo, Sell(2006) apresenta a arquitetura de soluo para
viabilizar o BI semntico:
Figura 2 - Arquitetura para Semantic Business Intelligence
OLAP

Relatrios

Portais

Clientes

Gerenciador
de Anlises

Mdulos Funcionais
Gerenciador
de Servios

Gerenciador
de Ontologias

Infraestrutura WSS

Reasoner

Ontologia
do Domnio
Ontologia
de Servios

Ontologia
BI
Data Warehouse

Mecanismos
de Inferncia

Repositrios
de Ontologias

Fontes de Dados

Fonte: Sell(2006).

Um ponto muito importante apresentado na figura da arquitetura so as


ontologias, que possibilitam a representao de um conhecimento ou conceitos
de domnio, o que permite os recursos semnticos e viabiliza os requisitos
apresentados anteriormente. Segundo Napoli(2011), o repositrio de ontologias
permite o mapeamento da semntica do negcio, dos dados da organizao e dos
servios necessrios para o apoio ao processo decisrio.

Colocando inteligncia nos negcios

54

Outra contribuio importante desse modelo que no segue o clssico de BI a


presena dos mecanismos de inferncia, que possibilitam raciocinar sobre os
conceitos das ontologias e instncias da base de conhecimento. Para Napoli(2011),
os mecanismos de inferncia permitem a realizao de processamento de regras
sobre ontologias, o autor tambm afirma que esse recurso possibilita a capacidade
de filtrar os dados reunidos na anlise ou a expanso dos dados por meio da
definio das regras.
Existem trabalhos que utilizam o termo Business Intelligence 3.0 para arquiteturas
de BI que fazem uso de fontes de dados no estruturadas a partir de mdias sociais.
Essas informaes so muito importantes para a organizao e podem auxiliar
a inteligncia competitiva, a anlise de opinio sobre os produtos e servios da
organizao(LUNARDI, 2011).
De maneira geral, percebese que algumas das prticas de BI j eram utilizadas
muito antes do invento do computador, e que at hoje essa abordagem
muito utilizada e pesquisada pelas organizaes e universidades. Percebese
que as propostas de BI 2.0 e BI 3.0 so respostas a eventos que as organizaes
vivem. A prxima leitura est focada na utilizao e na descrio dos principais
componentes de uma arquitetura de Business Intelligence.

Referncias
GORDON, Steven R.; GORDON, Judith. Sistemas de informao: uma abordagem gerencial.
3. ed. Rio de Janeiro: LTC, 2006.
INMON, W. H. Como construir o Data Warehouse. Rio de Janeiro: Campus, 1997. 388 p.
LUNARDI, Riccardo. Panoramic and main features of Business Analytics. Tese(Doutorado)
2011 Universita Degli Studi di Padova, Facolta di Ingegneria. Ingegneria Informatica,
Padova(Itlia), 2011.
KIMBALL, Ralph. Data warehouse toolkit. So Paulo: Makron Books, 1998. 379 p.
NAPOLI, Marcio. Aplicao de ontologias para apoiar operaes analticas sobre fontes
estruturadas e no estruturadas. 2011. Dissertao(Mestrado) Universidade Federal de
Santa Catarina, Programa de PsGraduao em Engenharia e Gesto do Conhecimento,
Florianpolis, 2011.
PINTAS, Juliano T.; SIQUEIRA, Sean W. M. O papel da semntica no Business Intelligence2.0:
Um exemplo no contexto de um programa de psgraduao. VIISimpsio Brasileiro de
Sistemas de Informao. Salvador, 2011.

Ps-graduao

55

PRIMAK, Fbio Vincius. Decises com B.I. Rio de Janeiro: Editora Cincia Moderna, 2008.
RASMUSSEN, Nils; GOLDY, Paul S.; SOLLI, Per O. Financial Business Intelligence Trends,
Technology, Software Selection, and Implementation. John Wiley and Sons, Inc., New
York, 2002.
REGINATO, Luciane; NASCIMENTO, Auster Moreira. Um estudo de caso envolvendo
business intelligence como instrumento de apoio controladoria. Revista Contabilidade
& Finanas. So Paulo, p.6983, 2007.
SASSI, Renato Jose. Data Warehouse e Business Intelligence Operacional: Revistando a
Tecnologia e Analisando as Tendncias do Armazm de Dados. XXX Encontro Nacional de
Engenharia de Produo. ENEGEP 2010. So Carlos, 2010.
SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias
semnticas para suporte a aplicaes analticas. 2006. Tese(Doutorado) Universidade
Federal de Santa Catarina, Centro Tecnolgico. Programa de PsGraduao em
Engenharia de Produo, Florianpolis, 2006.
SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento
analtico baseado em tecnologias semnticas e em linguagem natural. 2011.
Dissertao(Mestrado) Universidade Federal de Santa Catarina, Programa de
PsGraduao em Engenharia e Gesto do Conhecimento, Florianpolis, 2011.
XAVIER, Fabrcio S. V.; PEREIRA, Leonardo Bruno R. SQL dos Conceitos s Consultas
Complexas. Editora Cincia Moderna, Rio de Janeiro, 2009.

Colocando inteligncia nos negcios

56

Arquitetura tpica de BI
Flvio Ceci

Muitas das prticas utilizadas no BI j eram utilizadas pelos povos antigos para
auxiliar na sua prtica na agricultura e pecuria. O termo em si ganhou mais
representao quando suportado por ferramental computacional. medida
que novas tendncias surgem, as arquiteturas de BI se moldam para atender os
novos desafios e de modo a utilizar os novos recursos da organizao. possvel
perceber essa linha de evoluo olhando o surgimento do conceito de Semantic
Business Intelligence, junto popularizao e ascenso da rea de Web Semntica,
ou ainda, com o surgimento e a grande utilizao das redes sociais surgem
trabalhos que alguns autores utilizam o termo business intelligence 3.0, como
sendo os que utilizam os dados desse tipo de mdia para auxiliar a anlise e
tomada de deciso nas organizaes. Tambm so utilizadas tcnicas avanadas
de processamento de linguagem natural, alm dos componentes da arquitetura
tpica(clssica) de BI.
Essa leitura est mais focada na aplicao das solues de BI, bem como na sua
arquitetura clssica. Dando continuidade aos nossos estudos, apresentado
abaixo um quadro adaptado por Sell(2006), que exibe as caractersticas de
utilizao das solues de BI:
Quadro 1 - Caractersticas de utilizao das solues de BI
FOCO

AMBIENTE INTERNO

AMBIENTE EXTERNO
Segmentao, preferncias e
comportamentos dos clientes.

Operaes do negcio.
Objetivos
de anlise

Cadeia de suprimentos.
Gesto de relacionamento
com os clientes.
Clientes e fornecedores.

Economia.
Aspectos regulatrios.
Concorrncia:
-- segmentao;
-- lderes.
Perfil de compra.

Objetivos

Utilizao

Eficincia.

Anlise, refinamento
e reengenharia do
desempenho do mercado.

Posicionamento no mercado.
Modelagem e previso do
comportamento do mercado.
Posicionamento no mercado.
Aprendizagem das tendncias de consumo.
Identificao de riscos, tecnologias e regulao.

Fonte: Sell(2006). Adaptado.

Ps-graduao

57

As solues de BI no so guiadas unicamente a aplicaes de TIC(tecnologia


da informao) de ltima gerao, mas tambm ao fornecimento de solues
que integram recursos verticais de aplicativos e metodologias para diversas
reas do negcio. Vale lembrar que o foco das solues de BI est no acesso e na
distribuio de informaes para auxiliar o apoio deciso(SELL, 2006).
As arquiteturas tradicionais de BI utilizam vrios elementos e tcnicas para
transformao (processamento) de dados em informao(SILVA, 2011). Demaneira
mais ampla, podese dividir a arquitetura de BI em trs principais componentes:
ETL(Extraction, Transformation and Loading), processo responsvel por
extrair os dados das bases operacionais(transacionais) da organizao,
efetuar transformaes a fim de gerar informaes vlidas para a
anlise e apoio ao processo decisrio e, por ltimo, armazenlas em um
repositrio que facilite o acesso s informaes.
Repositrio de dados analticos: so representados pelosData
Warehouses(DW), repositrios de dados que utilizam modelagens
(geralmente modelagem dimensional), as quais podem dispor os dados
de maneira mais natural para a anlise e o processo de deciso.
O ltimo componente a camada de apresentao. Essa camada podese
utilizar de uma srie de tcnicas e / ou ferramentas para auxiliar o
consumo e apresentao das informaes armazenadas pelo DW.
A figura a seguir adaptada por Silva(2011) do trabalho de Hodge(2011)
representa a arquitetura tradicional de BI com os seus principais componentes
etcnicas utilizadas:

Colocando inteligncia nos negcios

58

Figura 1 - Arquitetura tradicional de BI com os principais componentes

Fonte: Silva(2011).

A primeira camada a chamada de Sistemas Operacionais, ou seja, so as


fontes de dados operacionais(transacionais) da organizao, Nessa camada
esto todas as bases por setor: finanas, servios. Suprimentos, RH, P&D,
Logstica, clientes, vendas.
O processo de ETL recupera os dados dispersos pelas vrias bases operacionais
das organizaes e aps o processamento os concentra na forma de informaes
analticas, no data warehouse da organizao.
Os dados organizados no repositrio podem ser consumidos pela camada de
apresentao que representada pelas vrias tcnicas de ferramentas:
Relatrios;
OLAP;
Dashboards;
Alertas;
Scorecards.
importante ressaltar que no existe soluo de BI genrica, ou seja, cada
organizao possui um cenrio particular e mais importante ainda, perguntas
especficas que procuram respostas. O que temos em comum a todas as
organizaes a arquitetura geral tradicional de BI.

Ps-graduao

59

Iniciando um projeto de BI
A implantao de uma soluo de BI em nvel organizacional no uma tarefa
fcil, nem to pouco rpida! necessrio um bom planejamento e reservar uma
boa parcela de tempo para ter sucesso nesse processo. Segundo Primak(2008),
deve ficar claro que apesar desses projetos envolverem o uso de ferramentas e
solues de Tecnologia da Informao(TI), importante entender que BI um
projeto de negcio aplicado para a empresa no contexto geral. O que o autor
quer dizer com a afirmao anterior que o uso de uma soluo de BI no igual
ao uso de um sistema de informao comum, necessrio que a organizao
esteja preparada para utilizar o sistema e saber como chegar s informaes e aos
conhecimentos implcitos.
Para Primak(2008), existem dois tipos de planejamento que devem ser feitos para
a execuo bemsucedida de um projeto de BI, que so:
Planejamento Estratgico Corporativo(PEC): explicitam as oportunidades,
os riscos, os pontos fortes e fracos da organizao. Esse procedimento que
traa as principais metas e as estratgias para alcanlas.
Planejamento Estratgico da Informao(PEI): de responsabilidade
darea de administrao de dados e visa a identificar todos os sistemas
da organizao, suas bases de dados, alm da avaliao da qualidade
dosdados.
Partindo para o desenvolvimento e implantao da soluo de BI, devese,
inicialmente, ter uma viso sistmica da organizao, de modo que sejam
facilmente identificados quais tipos de pergunta desejase responder utilizando
a soluo de BI. Quando essas informaes j tiverem sido levantadas, podese
partir para a modelagem do repositrio nico dos dados e informaes(DW).
Geralmente esses repositrios utilizam para a organizao a modelagem
dimensional, que constituda por tabelas de dimenses(filtros e informaes
que sero cruzadas) e tabelas fato(possuem uma srie de valores j processados
e distribudos pelas dimenses em questo).
Aps a construo do DW, necessrio criar rotinas para carga, para isso se
utilizam ferramentas ETL. Essas ferramentas devem ler os dados armazenados
nas vrias bases operacionais da organizao, processlos(de modo que os
agrupe de modo mais natural para a anlise) e, posteriormente, carreglos nas
tabelas do DW.
Tendo os repositrios de dados e informaes modelados e devidamente
carregados, devese identificar quais tcnicas de anlises(minerao de
dados) podem ser aplicadas para a extrao de informaes implcitas e at
mesmoconhecimento.

Colocando inteligncia nos negcios

60

Devemse combinar as tcnicas de minerao de dados com o ferramental da


rea de apresentao para auxiliar o consumo de informao e conhecimento
proveniente da soluo de BI, de modo que seja o mais natural para a tomada
dedeciso.
O que se deve levar em conta para a implementao de uma soluo de BI numa
organizao? Primak(2008) apresenta algumas questes que devem ser verificadas:
Questes de balanceamento de metas: quais so as metas para o curto,
mdio e longo prazo?
Questes de base: quais so as competncias da minha organizao para
atingir a meta e o que eu devo procurar no mercado?
Investimentos e riscos: quanto vai custar o projeto de BI? Quanto e o que
eu espero de retorno?
Levantar os interessados: verificar quem, no contexto organizacional,
sero os beneficiados com a soluo de BI;
Avaliao dos resultados: devese sempre avaliar os resultados, em todas
as etapas, pois mudanas podem ser necessrias para um maior sucesso.
De modo geral, percebese que as solues de BI no so apenas tecnolgicas,
necessrio que a organizao esteja preparada para usufruir dos seus
recursos, bem como adotar atividades que utilizem tais recursos para um maior
aproveitamento da soluo.
Os prximos captulos apresentam mais detalhes sobre cada uma das camadas da
arquitetura de business intelligence tradicional.

Referncias
HODGE, P. Business intelligence Architecture. Disponvel em <http://sites.google.com/a/
paulhodge.com/www/architecture>. Acesso em 21 de Janeiro de 2012.
PRIMAK, Fbio Vincius. Decises com B.I. Rio de Janeiro: Editora Cincia Moderna, 2008.
SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias
semnticas para suporte a aplicaes analticas. 2006. Tese(Doutorado) Universidade
Federal de Santa Catarina, Centro Tecnolgico. Programa de PsGraduao em
Engenharia de Produo, Florianpolis, 2006.
SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento
analtico baseado em tecnologias semnticas e em linguagem natural. 2011.
Dissertao(Mestrado) Universidade Federal de Santa Catarina, Programa de
PsGraduao em Engenharia e Gesto do Conhecimento, Florianpolis, 2011.

Ps-graduao

61

Atividades de Autoaprendizagem
1) Levando em considerao o contedo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:
a. ( ) As prticas de BI s foram possveis com o advento dos computadores.
b. ( ) DW nada mais do que um banco de dados que utiliza como modelagem
de dados a abordagem relacional.
c. ( ) ETL o processo de minerao de dados previsto pela arquitetura de BI.
d. ( ) O planejamento estratgico corporativo e da informao so
planejamentos que devem ser feitos para um projeto de BI bem sucedido.
e. ( ) A chamada rea de apresentao onde as informaes so organizadas
ecentralizadas.
f. ( ) A ideia de adicionar recursos semnticos arquitetura de BI anterior aos
chamados BI 2.0 e BI 3.0.

Atividade colaborativa
Nesta unidade, voc estudou uma srie de conceitos relacionados com sistemas
de informao e sistemas de apoio deciso. Responda pergunta a seguir
utilizando a ferramenta Frum, no se esquea de comentar as respostas dos
seuscolegas.
O uso de recursos semnticos permite uma sria de possibilidades para as
anlises de informaes disponveis pelo BI, quais possibilidades so essas?
Comoelas podem auxiliar na anlise das informaes?

Sntese
Nesta unidade, estudado com mais detalhes a arquitetura de BI, qual a sua
origem, seus fatores histricos, quais so os seus principais objetivos, como
se deu a sua evoluo, quais as suas tendncias(BI 2.0, BI 3.0...). Tambm
apresentado como iniciar um projeto de BI e quais so os principais componentes
de uma arquitetura de BI.

Colocando inteligncia nos negcios

62

Saiba Mais
O artigo abaixo foi publicado em 2012 e traz uma viso geral sobre BI e como as
tecnologias semnticas podem dar suporte as suas anlises, vale muito a pena
esta leitura:
SELL, Denilson; SILVA, Dhiogo, C.; GHISI, Fernando B.; NAPOLI, Marcio; TODESCO,
Jos L. Adding Semantics to Business Intelligence: Towards a Smarter Generation
of Analytical Tools. In. Business Intelligence: Solution for Business Development.
InTech, 2012.Disponvel em: <http://www.intechopen.com/articles/show/title/
adding-semantics-to-business-intelligence-towards-a-smarter-generation-ofanalytical-tools>.

Ps-graduao

Unidade 3

Data Warehouse

Objetivos de Aprendizagem
Compreender a construo e o funcionamento dos Data Warehouses,
como suporte ao armazenamento das informaes das organizaes;
Identificar as principais caractersticas de um Data Warehouses;
Entender o que modelagem dimensional.

Introduo
A crescente produo de dados pelos sistemas transacionais da organizao,
de maneira distribuda pelos vrios setores e ferramentas, acaba dificultando a
visualizao e a anlise dos dados pela camada gerencial.
Desse modo, importante a utilizao de repositrios de dados centralizados,
que facilitam o acesso aos dados e permitam que eles possam ser cruzados e
comparados. Alm da disponibilizao dos dados em um repositrio, tambm
necessrio que esses repositrios possuam os dados organizados de maneira mais
natural para a anlise, sendo, assim, mais eficiente.
Esta unidade focada no estudo dos repositrios de dados do tipo Data
Warehouse(DW), sua arquitetura, como ele pode ser desenvolvido, quais as
etapas necessrias para a sua implantao e como feita a integrao e a carga
dos seus dados.

64

Componentes de um DW
Flvio Ceci e Glucio Adriano Fontana

Com o aumento do uso dos sistemas de informaes transacionais, cada vez mais
so armazenados dados em bases no centralizadas. O que funciona bem para o
controle operacional dos setores da organizao apresenta um problema para a
camada gerencial, que atua transversalmente, pois no traz uma viso sistmica
das operaes organizacionais.
Alm de no possuir uma viso integrada das operaes da organizao, esta
abordagem mantm todos os dados operacionais distribudos entre vrios
sistemas, o que dificulta a anlise deles, alm de no possuir uma garantia de que
esto corretos.
Os Data Warehouse(DW) tm como funo atuar neste contexto. Segundo Teorey,
Lightstone e Nadeau(2007), um DW um grande repositrio de dados histricos
da organizao, que podem ser integrados, a fim de apoiar o processo decisrio.
Para Xavier e Pereira(2009), DW uma grande base de dados que organiza e
armazena informaes integradas a partir de bases de dados operacionais.
DW um conjunto de dados orientado por assuntos, no voltil, varivel com o
tempo e integrado, criado para dar suporte deciso. Isto , direcionar a viso
do negcio da empresa, de maneira no modificvel, como nos bancos de dados
transacionais, pois neste nterim dados passados so histricos, variveis no
tempo, sincronizados e integrados, necessrios ao pensamento estratgico e
tomada de decises(CIELO, 2008; INMON, 2001).
Em um exemplo simples e claro: A empresa X possui um cliente chamado Joo,
que solteiro. Joo realizou diversas compras de cerveja e macarro durante dois
anos. Ento, ele se casou, agora, na base de dados(BD), Joo agora casado.
Eele passou a comprar fraldas. Uma anlise nesse BD dos produtos comprados
por um cliente iria nos informar que Joo casado, compra cerveja, macarro,
refrigerante e fraldas. O fato de ele ter mudado seu perfil de compra aps o
casamento no seria registrado pelo banco de dados transacional, logo, seria
informao perdida, que poderia ser muito melhor aproveitada pela organizao.
O DW permite ter uma base de dados integrada e histrica para anlise dos dados,
isso pode e deve se tornar um diferencial competitivo para as empresas. Tendo
uma ferramenta desse porte na mo, o executivo pode decidir com muito mais
eficincia e eficcia. As decises sero embasadas em fatos e no em intuies,
podero ser descobertos novos mercados, novas oportunidades, novos produtos,
podemse criar relaes melhores com clientes, por exemplo, conhecendo hbitos
mais a fundo e com mais detalhes do que se poderia imaginar.

Ps-graduao

65

A orientao por assunto, conforme Cielo(2008), nada mais do que o


direcionamento que se d da viso que ser disponibilizada, do negcio da empresa.
Por exemplo: em uma empresa de Telecom, o principal assunto o cliente, e esses
clientes podem ser residenciais, empresas, telefonia pblica etc. Ento, quando um
arquiteto de Warehouse for desenhar esse modelo, deve levar em considerao
essas premissas e dividir as vises de acordo com o que o decisor quer ver. Observe
que tudo girar em torno dos assuntos, seja qual for a viso que se quer ter, ou seja,
a viso financeira da empresa tambm girar em torno disso, seja a inadimplncia,
ofaturamento, a lucratividade etc. A Figura 1 ilustra est situao:
Figura 1 Exemplo de disposio de tabelas por assunto
Empresa

Cliente

Lucro

Telefonia Pblica

Ano

Fonte: Elaborao do autor(2012).

Como se pode observar na Figura 1, as tabelas esto centradas num determinado


assunto, nesse caso, so os lucros da empresa de Telecom. Alm do assunto central,
existem tabelas que trazem as dimenses que sero cruzadas para chegar a uma
informao, nesse caso, obrigatoriamente consolidada e distribuda por ano.
A volatilidade referese ao Warehouse no sofrer mumificaes como nos sistemas
tradicionais, por exemplo: no sistema de faturamento de uma empresa, todos
os dias h incluses e alteraes de novos clientes, novos produtos e consumo.
J no Warehouse, acontecem somente cargas de dados e consultas, ou seja,
falando tecnicamente, h somente selects e inserts, e no h updates. Existem
basicamente duas operaes, a carga e a consulta, nada mais que isso(CIELO,
2008). A Figura 2 apresenta mais detalhes sobre esta caracterstica:

Data Warehouse

66

Figura 2 Relacionamento de volatilidade entre bases operacionais e DW


Base Operacional
Insero

Data Warehouse
Acesso

Alterao
Acesso

Acesso
Remoo
Insero

Remoo

Carga
Acesso

Alterao

Registro por registro/


Manipulao de dados

Carga em massa/
acesso aos dados

Fonte: Adaptado de Inmon(2007), p.34.

A Figura 2 demonstra como as bases operacionais recebem requisies em


nvel de operao, ou seja, cada nova venda ou baixa no estoque gera uma
nova requisio. As operaes podem ser de insero, alterao, remoo ou
acesso. J os DW so carregados de tempos em tempos, armazenando dados j
consolidados, posteriormente s tero acesso a essas informaes.
Varivel com o tempo uma caracterstica mpar no Warehouse. Ele sempre
retrata a situao que estamos analisando em um determinado ponto do tempo.
Cielo(2008, p.1) utiliza uma interessante analogia com fotografias:
pegue uma fotografia sua, quando recm nascido, depois, pegue
outra quando voc tinha 5 anos, e compare. Com certeza muitas
modificaes ocorreram, mas ela retrata exatamente a sua situao
naquele exato momento do tempo, e isso acontece da mesma
forma com o Data Warehouse. Ns guardamos fotografias dos
assuntos em determinados pontos do tempo, e com isso possvel
poder traar uma anlise histrica e comparativa entre os fatos.

A Figura 3 ilustra a situao da analogia da fotografia. A tabela azul representa


como os dados esto organizados numa base operacional, onde cada operao
de venda para um cliente gera uma linha inserida na tabela. Aps o processo de
transformao representado pela seta vermelha, os dados estaro armazenados,
consolidados por dia na tabela do DW, representado pela tabela verde da Figura 3.
importante destacar que a consolidao dos dados poderia ser feita sobre
outra unidade atmica de tempo que no seja dia. Poderia ser feita por ms ou
ano, caso tivesse muitas operaes, seria por hora. Esse tipo de deciso deve ser
tomada pensando no tipo de anlise que se pretende efetuar e da distribuio da
massa de dados.

Ps-graduao

67

Figura 3 Demonstrando a analogia da fotografia dos dados

Fonte: Elaborao dos autores(2012).

A integrao talvez seja a parte mais importante desse processo, pois ela ser
responsvel por sincronizar os dados de todos os sistemas existentes na empresa
e coloclos no mesmo padro.
Como sabemos, o Warehouse extrai dados de vrios sistemas da empresa e,
emalguns casos, dados externos, como a cotao do dlar. Porm, geralmente
os dados no esto padronizados, devido aos problemas que citamos acima,
enecessrio integrar antes de carregarmos no DW.
Um exemplo clssico o do sexo. Em um sistema, esse dado est guardado no
formato M para masculino e F para feminino, j no outro, o mesmo dado est
guardado como 0 para masculino e 1 para feminino. Isso geraria um grande problema
na hora da anlise, porm, na fase de ETL(Extrao, Transformao e Carga), isso
tudo vira uma coisa s, ou seja, todos os formatos so convertidos em um nico
padro, que decidido com o usurio final e ento carregado no Warehouse.

Data Warehouse

68

Figura 4 Exemplo da padronizao das informaes

Fonte: Elaborao dos autores(2012).

A Figura 4 representa como funciona a integrao dos dados das tabelas azul,
vermelha e laranja, ou seja, registros em vrias bases de dados distribudos pelos
sistemas transacionais da organizao. Nesse exemplo vse que a informao
relacionada com o sexo apresentada de trs maneiras completamente
diferentes, no caso da tabela azul, est por extenso, na tabela vermelha utilizado
M para masculino e F para feminino, j no caso da tabela laranja, o sexo masculino
representado pelo nmero inteiro 0 e o feminino pelo 1. A tabela em verde
demonstra a integrao dos dados, essa tabela representa uma dimenso Sexo
que possui um identificador padro, ou seja, em todas as tabelas do DW que tiver
referncia para sexo, ser utilizado um identificador que, nesse caso, M para
masculino e F para feminino.

Viso geral do DW
O uso dos Data Warehouse traz uma srie de benefcios para a tomada de
deciso da camada gerencial da organizao, os autores Teorey, Lightstone
e Nadeau(2007), desenvolveram uma tabela que compara os sistemas
transacionais(OLTP online transaction processing):

Ps-graduao

69

Quadro 1 Comparativo entre OLTP e DW


OLTP

Data Warehouse

Orientado a transao(operao)

Orientado ao processo do negcio(a assuntos)

Milhares de usurios

Poucos usurios
(normalmente a camada gerencial)

Geralmente utiliza pouco espao


(MB at vrios GB)

Utiliza muito espao


(de milhares de GB a vrios TB)

Dados atuais

Dados histricos(fotografias)

Dados normalizados
(muitas tabelas, poucas colunas por tabela)

Dados no normalizados
(poucas tabelas com muitas colunas)

Atualizao contnua

Atualizaes em lote
(processo de carga de tempos em tempos)

Consultas de simples a complexas

Normalmente, consultas muito complexas.

Fonte: Teory, Lightstone e Nadeau(2007).

O Quadro 1 apresenta caractersticas muito importantes dos DWs. Primeiramente,


so apresentados como orientados a processo de negcio, ou seja, so projetados
pensando nos assuntos relacionados organizao que se deseja tratar. Pelo
fato do DW armazenar informaes dispostas de modo a facilitar a anlise, o seu
uso focado na camada gerencial, que corresponde a uma pequena parcela de
funcionrios da organizao.
A ideia de ter um repositrio de dados implica diretamente armazenar uma grande
quantidade de dados, dados esses que so armazenados de maneira histria, ou
seja, consolidados por um perodo de tempo especfico. Por esse motivo, a carga
do DW feita em lote, e de tempos em tempos.
Como foi comentado anteriormente, os data warehouse so repositrios
integradores de informaes relevantes organizao. Para facilitar o seu
consumo, podese utilizar a ideia de data marts. Segundo Xavier e Pereira(2009),
data mart um pequeno data warehouse que possibilita apoio deciso de um
pequeno grupo de pessoas e assuntos.
Na viso de data mart de Kimball um data mart um DW orientado por assunto
ou rea organizacional, uma verso reduzida de um DW que se concentra na
exigncia de um departamento especfico(TURBAN et al, 2009).

Data Warehouse

70

Requisitos de um Data Warehouse


Os autores Teorey, Lightstone e Nadeau(2007) elaboraram uma lista de requisitos
e princpios para um projeto de DW:
1. Possuem orientao por assunto, ou seja, reas de interesses como, por
exemplo: vendas, gerenciamento de projetos, compras etc.
2. Devem ter a capacidade de integrao, reunir os vrios dados espalhados
pelas bases transacionais no DW;
3. Os dados so caracterizados como no volteis e so carregados em lote.
Tambm devese utilizar o recurso de limpeza de dados;
4. Os dados podem ter vrios nveis de granularidades, isso quer dizer que
podem ser consolidados por vrias dimenses diferentes, como por
exemplo, de tempo entre outras;
5. O DW deve ser suficientemente flexvel para dar suporte rapidamente s
necessidades constantes de mudana;
6. Deve ter a capacidade de reescrever a histria, ou seja, permitir anlises
hipotticas do tipo: o que acontece se...;
7. Dever suportar uma interface de usurio para interagir com os dados
armazenados, no geral utilizase SQL;
8. Os dados devem estar centralizados ou distribudos fisicamente, e dever
suportar uma viso lgica centralizada.
Muitos dos requisitos apresentados j haviam sido abordados nessa leitura, alm
dos requisitos importante identificar os principais componentes de um DW,
esses so apresentados a seguir.

Principais Componentes de um DW
Sabese que os data warehouses so repositrios de dados, mas eles, por si s, no
trazem suporte s etapas de apoio deciso. Para viabilizar um projeto de DW,
fazse necessria a presena de uma srie de componentes. Turban et al(2009)
desenvolveram a seguinte figura para ilustrar esses componentes e suas interaes:

Ps-graduao

71

Figura 5 Principais componentes de um DW


Aplicaes
Aplicaes
Personalizadas
Acesso
Replicao
Seleo

Legados

Extrair
Transformar

OLTP
Externos

Integrar
Manter
Preparao

Sistemas
operacionais/
dados

Relatrios de
metadados
Data
warehouse
empresarial

Data
Mart
Marketing
Data
Mart
Gesto
de Risco
Data
Mart

Banco de dados alvo


Engenharia
(HDB, MDDB)

A
P
I
S
M
i
d
d
l
e
w
a
r
e

Ferramentas
de produo
de relatrios
Ferramenta
de consulta
relacional

Visualizao
de Informao

OLAP/ROLAP

Navegadores
Web

Minerao
de Dados
Fonte: Turban et al(2009), p. 61.

A partir da anlise da Figura 5 so apresentados mais detalhes sobre os componentes:


Fontes de dados: so as vrias bases de dados transacionais espalhadas pela
organizao, que fazem parte dos sistemas de informaes operacionais
como, por exemplo: OLTP, ERP(sistemas integrados de gesto);
Extrao de dados: o chamado processo de ETL, ou seja, o processo de
extrao, transformao e carga dos dados no DW;
rea de estagiamento: uma camada intermediria entre os dados
operacionais e a carga do DW, serve para o processo de limpeza dos
dados antes que eles ingressem no DW;
Metadados: so mantidos para que sejam acessados pela equipe
de TI e pelos usurios. Facilitam a recuperao e organizao dos
dadosarmazenados;
Ferramentas de Middleware: permite o acesso ao DW de maneira mais
padronizada, como uma interface de acesso, para que outros servios
possam interagir com as informaes armazenadas.

Data Warehouse

72

importante lembrar que h outros componentes participando, como por


exemplo, se a abordagem de BI que utiliza o DW em questo tiver recursos
semnticos, muito provvel que ser necessrio a presena de ferramentas de
processamento de linguagem natural, de anotao de contedo e at mesmo de
ontologias e bases de conhecimento.

Referncias
ANGELONI, Maria Terezinha. Organizaes do conhecimento: infraestrutura, pessoas e
tecnologias. So Paulo: Saraiva, 2008. 363 p.
BONOMO, Peeter. Construo de Data Warehouse(DW) e Data Mart(DM). Artigo online.
Disponvel em <http://imasters.uol.com.br/artigo/11178> Acesso em: julho de 2009.
CIELO, Iv. Data Warehouse como diferencial competitivo. Artigo on line. Disponvel em
<http://www.always.com.br/site2005/internet_clip07.html> Acesso em: julho de 2008.
INMON, W. H.; TERDEMAN, R. H.; IMHOFF, Claudia. Data Warehousing: como transformar
informaes em oportunidades de negcios. So Paulo: Berkeley, 2001. 266 p.
INMON, W. H.. Como construir o Data Warehouse. Rio de Janeiro: Campus, 1997. 388 p.
KIMBALL, Ralph. Data warehouse toolkit. So Paulo: Makron Books, 1998. 379 p.
TEOREY, Toby; LIGHTSTONE, Sam; NADEAU, Tom. Projeto e Modelagem de Bancos de
Dados. Elsevier, Rio de Janeiro, 2007.
TURBAN, Efraim et al. Business Intelligence Um enfoque gerencial para a inteligncia do
negcio. Editora Bookman, Porto Alegre, 2009.
XAVIER, Fabrcio S. V.; PEREIRA, Leonardo Bruno R. SQL dos Conceitos s Consultas
Complexas. Editora Cincia Moderna, Rio de Janeiro, 2009.

Ps-graduao

73

Ciclo de vida de desenvolvimento


Flvio Ceci

Cada vez mais as organizaes esto utilizando repositrios centrais de dados


e informao, com a inteno de facilitar a anlise desses dados, melhorando
o seu consumo por solues de BI. Os Data Warehouses(DW) so os maiores
representantes das solues de repositrios de dados analticos. Mas como se
deve desenvolver um DW? Existe alguma arquitetura ou metodologia para facilitar
a implementao desse tipo de projeto? Essa leitura tem como foco responder a
essas questes.
A implantao de um projeto de DW possui um ciclo de vida para o seu
desenvolvimento, ou seja, possui fases necessrias para a obteno do sucesso.
Segundo Teorey, Lightstone e Nadeau(2007), o ciclo de vida se inicia com uma
conversa para determinar o plano de projeto e as necessidades do negcio.
Parafacilitar o entendimento do ciclo, os autores desenvolveram a Figura 1 a
seguir, baseada no livro de Kimball e Ross(2002):
Figura 1 Ciclo de vida de um DW

Fonte: Teorey, Lightstone e Nadeau(2007), p. 157.

Data Warehouse

74

Inicialmente, feito o planejamento prvio do projeto como o levantamento dos


recursos necessrios, qual o perfil dos executores e envolvidos, custos estimados,
verba disponibilizada, entre outras atividades. O prximo passo fazer um
levantamento das necessidades do negcio, essa etapa muito importante, pois
aqui sero levantados os assuntos que o repositrio tratar, bem como quais
perguntas se deseja responder.
Com o entendimento das necessidades, necessrio atualizar o planejamento do
projeto para contemplar as informaes e requisitos levantados, essa interao
entre as duas primeiras atividades iniciais do ciclo so cclicas, ou seja, podese
passar pelas duas atividades vrias vezes, na verdade, devese passar por elas at
ter o plano completamente alinhado com as necessidades da organizao.
Tendo as duas primeiras etapas concludas, partese para a execuo que est
dividida em trs frentes:
Arquitetural: essa frente inicialmente est focada no projeto tcnico
da arquitetura do DW, como sua estrutura, tanto de carga quanto de
consumo de informao e definise a interface de acesso. O prximo
passo a identificao de ferramental que possa auxiliar esses processos.
Essa leitura trar mais detalhes sobre esta frente;
Modelagem de dados: nesta frente concebida a modelagem dos dados
a partir dos assuntos levantados na etapa de definio das necessidades
de negcios. Nesta frente tambm so levantadas as dimenses de
anlise para o cruzamento das informaes;
Analtica: para esta frente, levantamse quais abordagens analticas so
mais indicadas para responder s questes levantadas anteriormente.
Aps as trs frentes concludas, devese partir para a implementao do DW
como um todo, ligando o novo repositrio com os sistemas de carga e com as
ferramentas que consumiro as informaes armazenadas. Ao longo do uso do
DW, podese detectar mudanas nos requisitos, o que acarreta no retorno etapa
de planejamento, o mesmo acontece caso encontre alguma possvel manuteno.

Arquitetura
As implementaes de Data Warehouse possuem algumas possveis arquiteturas
para a sua implantao. Entendese como arquitetura de um DW, a estrutura fsica
dos componentes, como esto organizados e relacionados. Segundo Dill(2002),
uma arquitetura de DW um conjunto de normas que possibilitam uma viso da
sua estrutura e auxilia no entendimento de como ocorre o fluxo dos dados ao
longo do processo.

Ps-graduao

75

A escolha da arquitetura do DW uma deciso muito importante, ela de cunho


gerencial e devese levar em conta principalmente a infraestrutura atual existente,
ambiente de desenvolvimento, escopo de implementao, disponibilidade de
recursos financeiros e equipe para desenvolvimento(DILL, 2002. p.17).
Existem algumas arquiteturas que so clssicas, segundo Turban et al(2009), as
arquiteturas de duas e trs camadas so bastante comuns, possvel ter at uma
nica camada, onde cada camada pode ser:
O prprio DW que contm os dados;
Os softwares de aquisio e extrao de dados;
Softwares clientes que so utilizados para consumir e apresentar as
informaes solicitadas.
A Figura 2 apresenta uma viso das trs camadas comentadas anteriormente e
como elas esto integradas:
Figura 2 Arquitetura clssica de DW em trs camadas

Ferramentas ETL

Data Warehouse

Ferramentas analticas

Fonte: Elaborao do autor(2012).

A nica das camadas que obrigada a existir a central, representada pelo


prprio repositrio o DW. A arquitetura de duas camadas conta, alm do DW, com
a camada que contm as ferramentas ETL. O trabalho de Dill(2002) apresenta
mais detalhes sobre cada uma das camadas:
Ferramentas ETL: ou populao do warehouse, tem como funo
a coleta dos dados armazenados nas bases operacionais, efetuar seu
processamento e transformao e, por fim, a carga do DW. Nessa etapa,
est concentrado o maior volume de trabalho;
Data Warehouse: ou na viso de Dill(2002), administrao do
warehouse, responsvel pela manuteno dos metadados, que tem
como funo fornecer informaes sobre os relacionamentos dos dados
armazenados no DW;
Ferramentas analticas: usurios acessam DW por meio de ferramentas
de anlise e explorao de dados. Essas ferramentas produzem
informaes para suporte deciso.

Data Warehouse

76

Existem variaes a partir da arquitetura genrica. Dill(2002) demonstra uma


possvel extenso da arquitetura em trs camadas. Basicamente nesta arquitetura
so adicionados data marts focados em setores especficos da organizao.
AFigura 3 a ilustra com mais detalhes:
Figura 3 Arquitetura de trs camadas estendida

Data
Warehouse
Corporativo

Fonte

Fonte

Fonte

Integrao
de Dados

Data
Warehouse
Departamental

Data
Warehouse
Departamental

Transformao de Dados

Usurios
Fonte: Dill(2002), p. 19

A extenso da arquitetura apresentada na Figura 3 mostra a insero de data


marts focados em setores da organizao. Esse tipo de abordagem facilita a
organizao e o consumo das informaes.
Existem outras variantes possveis de arquiteturas, algumas focadas na camada
das ferramentas de ETL, como apresentado por Oliveira(2002), em que para
cada base de dados operacional desenvolvida uma ferramenta de ETL e entre
as ferramentas e o DW existe o chamado integrador. A Figura 4 apresenta essa
arquitetura com mais detalhes:

Ps-graduao

77

Figura 4 Arquitetura utilizando o conceito de integrado


Consultas

Data Warehouse

Integrador

Extrator

Extrator

BD

BD

Extrator

BD

Fonte: Adaptado de Oliveira(2002. p.48).

Existem outras possibilidades de arquiteturas para empreendimentos de data


warehouse. Turban et al(2009) elaboraram a tabela a seguir para apresentar essas
alternativas de arquiteturas ilustrando os seus prs e contras:
Tabela 1 Prs e contras para as arquiteturas de DW
Data marts
independentes

Prs

Fceis de construir
organizacionalmente;
Fceis de construir
tecnicamente.

Visualizao da
empresa indisponvel
Custos redundantes
com dados;
Contras

Altos custos com ETL;


Altos custos com
aplicaes;
Altos custos
operacionais e
com DBA.

Deixar os dados
onde esto
No h necessidade
de ETL;
No h necessidade
de plataforma
separada.

Data marts
dependentes

Facilidade de
customizao de
interfaces de usurios
e relatrios.

Dados centralizados
integrados com
acesso direto
Visualizao da
empresa, consistncia
de projeto e qualidade
dos dados;
Dados podem ser
reutilizados.

Vivel apenas para


um volume pequeno;
Problemas com
metadados;
Problemas com
largura de banda
e complexidade
na unificao;
Carga de trabalho
normalmente
posta na estao
de trabalho.

Visualizao da
empresa desafiadora;
Custo com dados
redundantes;
Altos custos
operacionais e
com DBA;

Exige liderana e
viso corporativa.

Latncia de dados;

Fonte: Turban et al(2009).

Data Warehouse

78

Como se pode observar, o processo de integrao de dados est presente em


quase todas as arquiteturas, isso ocorre, pois por meio dessas ferramentas que
os DW so alimentados.

Integrao de dados
O processo de integrao de dados uma dos mais importantes relacionados com
o ciclo de vida de um data warehouse, ele garante que os dados que alimentaro o
DW sejam de qualidade e representativos para os assuntos escolhidos.
Segundo Turban et al(2009), a integrao de dados possui trs grandes processos:
Acesso aos dados: a capacidade de acesso e extrao de dados de
qualquer fonte;
Federao de dados: integrao das visualizaes de negcios em
diversos data stores;
Captura de alteraes: baseado na identificao, captura e entrega das
alteraes feitas nas fontes de dados da organizao.
No processo de acesso aos dados necessrio, anteriormente, identificar todas as
bases de dados operacionais da organizao que devem ser fontes para o DW. O
prximo passo verificar os recursos tecnolgicos, algumas perguntas podem ser
feitas para auxiliar:
Todas as bases so acessveis pela mesma rede onde ser abrigado o DW?
Se no est na mesma rede, o acesso possvel via requisio HTTP?
O uso de crawler auxiliaria neste processo?
Com o acesso a todas as fontes j mapeadas, necessrio qualificar quais
dadosso relevantes, ou seja, quais consultas devem ser feitas para extrair os
dados desejados.
O prximo processo organizar os dados coletados e verificar em quais
assuntos se encaixam melhor, nesse ponto, so montadas as instrues INSERTs
para o repositrio DW.
O ltimo processo(captura de alteraes) muito importante, pois por meio
dele que so detectadas as atualizaes nos dados organizacionais. Entendese
por alterao como:
alterao() = situao atual situao armazenada.

Ps-graduao

79

Esse processo mais complexo que apenas identificar as alteraes nos dados.
Como j sabido, a modelagem de dados utilizados pelos DWs os organizam
como fotografias de um perodo especfico. Tendo em vista essas caractersticas,
devese verificar todos os novos dados inseridos nas bases operacionais,
no intervalo de tempo escolhido para compor as fotografias. A seguir
apresentado um exemplo:
Imaginase que a unidade mnima de tempo utilizada seja um ms, todos os
dados estariam agrupados por ms e distribudos pelas dimenses. Caso os
gestores da organizao tenham interesse apenas nos dados do ms fechado,
ou seja, do ms com todas as vendas e compras finalizadas, podese configurar o
sistema de integrao de dados para rodar a cada final de ms. Agora imagine se
os gestores dessa organizao querem os dados agrupados por ms, mas no caso
do ms atual desejase verificar as vendas at o momento, neste cenrio o sistema
de integrao de dados deve ser configurado para ter ciclos num intervalo menor
de tempo(por exemplo, a cada hora). Assim, as alteraes que se devem levar
em conta seriam todas as operaes feitas no perodo da primeira hora do ms
corrente, at o momento, inserir esses registros no repositrio.
Segundo Turban et al(2009), faz parte dos objetivos de um data warehouse a
integrao de dados de mltiplos sistemas. Para isso, existem vrias tecnologias
que permitem a integrao de dados e metadados:
Integrao de aplicaes corporativas(EAI): possibilita um meio para
transportar dados dos sistemas de origem para o data warehouse.
Seufoco na integrao das funcionalidades da aplicao, o que permite
a reutilizao da aplicao e flexibilidade;
Integrao de informaes corporativa(EII): promete a entrega da
informao em tempo real, a partir de diversas fontes relacionais, web
services e fontes dimensionais. Extrai dados dos sistemas fontes para
atender ao pedido da informao;
Extrao, transformao e carga(ETL): este processo apresentado
com mais detalhes a seguir.
O processo de ETL responsvel pela carga das tabelas do DW. A Figura 5, aseguir,
elaborada por Turban et al(2009), ilustra este processo:

Data Warehouse

80

Figura 5 Processo ETL


Fonte de dados
temporrios

Aplicao
pronta

Sistema
legado

Data
warehouse
Extrair

Transformar

Outras
aplicaes
internas

Limpar

Carregar

Data mart

Fonte: Turban et al(2009), p.72.

Por ser um processo de integrao de dados, as ferramentas ETL incorporam as


operaes j mencionadas. O processo Extrair do processo de ETL o mesmo
apresentado no processo de acesso aos dados.
O processo transformar aplica as regras de negcio levantadas em cima dos
requisitos baseados nos assuntos do DW, a fim de normalizar os dados que sero
armazenados no repositrio. Segundo Napoli(2011), as transformaes podem ser
complexas quando os dados so extrados de um ambiente heterogneo, o autor
apresenta alguns desses problemas:
Chaves primrias inconsistentes;
Inconsistncias nos dados;
Dados invlidos(essa deficincia deve ser atacada pelo processo
delimpeza);
Sinnimos e homnimos(ou seja, dados redundantes no so fceis
dereconhecer);
Lgica de processo embutido(valores identificadores do tipo 0 e 1,
queno so descritivos).
A etapa de Limpar os dados consiste em retirar os que no respeitam as regras
de negcio levantadas ou que esto incompletos.
O uso de bases de estagiamento para manter os dados psextrao e durante
os processos de transformao e limpeza bastante comum. Por fim, os dados j
transformados e limpos so persistidos no repositrio data warehouse.

Ps-graduao

81

Referncias
DILL, Srgio Luis. Uma metodologia para desenvolvimento de Data Warehouse e
Estudo de Caso. Dissertao submetida para obteno do grau de Mestre em Cincia da
Computao. Universidade Federal de Santa Catarina, Florianpolis, 2002.
KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: The Complete Guide to
Dimensional Modeling. Wiley, 2002.
NAPOLI, Marcio. Aplicao de Ontologias para apoiar operaes analticas sobre fontes
estruturadas e no estruturadas. 2011. Dissertao(Mestrado) Universidade Federal de
Santa Catarina, Programa de PsGraduao em Engenharia e Gesto do Conhecimento,
Florianpolis, 2011.
OLIVEIRA, Wilson J. Data Warehouse. Visual Books, Florianopolis, 2002.
TEOREY, Toby; LIGHTSTONE, Sam; NADEAU, Tom. Projeto e Modelagem de Bancos de
Dados. Elsevier, Rio de Janeiro, 2007.
TURBAN, Efraim et al. Business Intelligence Um enfoque gerencial para a inteligncia do
negcio. Editora Bookman, Porto Alegre, 2009.

Data Warehouse

82

Modelagem Dimensional
Flvio Ceci

Para um projeto de um repositrio de dados analticos, aqui representado pelos


Data Warehouse, necessrio, inicialmente, a definio de uma estratgia de
implementao e implantao.
Uma das fases iniciais do ciclo de vida de desenvolvimento de um DW a
identificao das necessidades do negcio, bem como o seu entendimento. Essa
fase muito importante, pois por meio dela que so levantadas as perguntas a
que se deseja responder, com a anlise dos dados e informaes contidas no DW
etambm como ele ser organizado.
Aps o entendimento das necessidades e do prprio contexto organizacional,
podese atacar trs frentes em paralelo: a arquitetura do DW, a sua modelagem
dimensional, como ser a camada de anlise dos dados e informaes
armazenadas nele.
Esta leitura focada no processo de modelagem dimensional. Segundo Sell(2006),
uma das primeiras fases de um projeto de um repositrio a identificao do
modelo de dados, para isso, preciso verificar os dados necessrios e que podem
ser obtidos junto aos sistemas transacionais.
Uma das principais diferenas entre os repositrios do tipo DW e das fontes
de dados transacionais a forma como eles esto organizados, ou seja, qual a
modelagem de dados utilizada. Segundo Silva(2011), geralmente os dados de
bases relacionais encontramse em modelos que evitam redundncia e possveis
inconsistncias geradas por meio de inseres ou atualizaes, que so os modelos
entidaderelacionamento. Esse modelo eficiente para os sistemas transacionais,
mas no propcio s anlise que envolvam grande volume de dados.
A modelagem dimensional apresentase como alternativa ao modelo
entidaderelacionamento para auxiliar a anlise de grandes volumes de dados.
Segundo Sell(2006), esse modelo remete ideia do cubo, contendo trs ou mais
dimenses, onde cada uma representa um atributo diferente. Para Silva(2011),
omodelo dimensional, tambm conhecimento como esquema estrela, organiza os
dados de uma forma intuitiva, que focado no alto desempenho das consultas e
orientado estratificao de informao.
A modelagem de um DW chamada de Modelagem Dimensional, esse nome dado
devido forma com que as dados esto organizados. Como foi dito anteriormente,
um DW orientado ao assunto, que representado pelas tabelas fato.

Ps-graduao

83

Para Napoli(2011), na composio tpica o modelo dimensional possui uma


grande entidade central(fato), que representa a evoluo dos negcios do
dia a dia de uma organizao, tambm apresenta um conjunto de entidades
menores(dimenses), arranjadas ao redor da entidade central e utilizadas de
maneira combinada, como variveis de anlise do fato.
Segundo Oliveira(2002), as tabelas fato contm muitos registros de valores e
medidas relacionadas a vendas e transaes de compras na empresa, em qua cada
medida dessa tomada segundo a interseo de todas as dimenses. Segundo
Kimball e Ross(2002), quanto menor a granularidade de uma tabela fato, maior
ser o nvel de detalhamento armazenado.
A modelagem dimensional tambm conhecida como modelo estrela, esse nome
dado devido tabela fato estar ao centro, ligada s dimenses nas pontas.
AFigura 1 ilustra essa analogia:
Figura 1 - Exemplo da modelagem em estrela

Fonte: Elaborado pelo autor, 2012.

As dimenses podem ser classificadas como resposta a quatro perguntas:


Quando?
Quem?
Onde?
O qu?

Data Warehouse

84

nas dimenses que so armazenadas as informaes complementares aos dados


cadastrados na tabela fato, e so utilizadas como variveis de corte e para auxiliar
em filtros de ferramentas OLAP.
Segundo Oliveira(2002), as dimenses contm descries textuais das dimenses
do negcio, e elas geralmente so utilizadas como variveis de corte ou filtros.
Para Napoli(2011), as dimenses podem ser formadas por um conjunto de
atributos, denominados hierarquias, que so utilizados como base para regras de
agrupamentos, quebras e filtros em consultas a uma tabela de fato.
Sabese que o DW trabalha com dados consolidados por tempo, isso leva a crer
que os sistemas de controle de processos das empresas armazenam os dados
direto na base operacional(relacional).
Sell(2006) desenvolveu um quadro que faz o comparativo entre fatos, dimenses
e medidas:
Quadro 1: Tabela descritiva de fatos, medidas e dimenses

Escopo

FATOS

DIMENSES

MEDIDAS

Representam um item,
uma transao ou um
evento de negcio.

Determinam o contexto
de um assunto de
negcios, como por
exemplo, uma anlise
da produtividade dos
grupos de pesquisa.

So os atributos
numricos que
representam um fato
e so determinados
pela combinao
das dimenses que
participaram desse fato.

Objetivo

Refletem a evoluo
dos negcios.

So os balizadores de
anlise de dados.

Representam o
desempenho de
um indicador de
negcios relativo
s dimenses que
participam de um fato.

Tipo de dado

So representados por
conjuntos de valores
numricos(medidas)
que variam ao
longo do tempo.

Normalmente no
possuem atributos
numricos, pois so
somente descritivas
e classificatrias
dos elementos que
participam de um fato.

Podem possuir
uma hierarquia de
composio de seu valor.

Fonte: Sell(2006), p.31.

Segundo Datta e Thomas(1999) apud Napoli(2011), um cubo de dados uma das


peas fundamentais na criao e construo de um banco de dados dimensional,
ele serve como uma unidade bsica de entrada e sada para todos os operadores
definidos em um banco de dados, ele contm clulas as quais so valores ou

Ps-graduao

85

medidas que tomam como base um conjunto de dimenses. A Figura 2 apresenta


um exemplo de cubo multidimensional, cujo assunto as vendas de uma loja.
Figura 2 Cubo multimensional de vendas de uma loja

Produto

40

253

10

541

36

103

698

457

66

269

399

620

87

30
20
10

Loja

Perodo 01/2003 02/2003 03/2003


Fonte: Campos(2005).

A fase frontal do cubo apresentado na Figura 2 representa o assunto venda,


ou seja, a tabela do tipo fato vendas, possvel perceber as dimenses
utilizadas para chegar no valores apresentados, foram combinadas as dimenses
produtoxloja, ou seja, o cubo foi movido de maneira que foi apresentada a
quantidade de vendas de produtos por lojas.
Para facilitar o entendimento do processo de concepo de um modelo
dimensional apresentado a seguir um estudo de caso.

Estudo de caso: Concepo de um modelo dimensional


O cenrio escolhido para ilustrar esse estudo de caso o de uma biblioteca
universitria. Essa biblioteca faz parte de uma das maiores universidades do
Brasil, ela conta com mais de 20 mil usurios e conhecida nacionalmente pelo
seu vasto acervo.
Como a rea de pesquisa dessa universidade no para de crescer, a reitoria
disponibilizou uma verba bastante significativa para a construo de um DW que
auxilie na tomada de deciso.

Data Warehouse

86

Como base de dados para a carga do DW, existe um sistema transacional que
gerencia as operaes dirias dessa biblioteca. A Figura 3 apresenta a modelagem
relacional da base de dados utilizados por esse sistema:
Figura 3 Modelo relacional da biblioteca universitria

Fonte: Elaborao do autor, 2012.

O modelo apresentado acima serve como base para a carga do DW, o sistema
transacional que o utiliza gerencia as operaes dirias da biblioteca, como
porexemplo:
Gerenciamento de usurios;
Gerenciamento do acervo;
Controle das multas referente a atrasos na devoluo de livros.
Aps o entendimento do cenrio base, foi levantado, junto aos gestores da
biblioteca, quais necessidades eles possuem e quais perguntas eles gostariam
deobter respostas por meio da implantao do DW.
O que foi identificado junto aos gestores que se deseja ganhar agilidade
na compra dos livros, para isso necessrio identificar quais ttulos so mais
solicitados, para a compra de mais exemplares. Alm desse ponto, desejase

Ps-graduao

87

identificar quais assuntos so mais solicitados, distribudos pelos meses do ano,


para facilitar a previso na aquisio de novos ttulos por assunto.
Como a universidade no para de crescer, previsto que ela se expanda para as
cidades prximas, com isso, importante saber se existem interesses em comum
entre os moradores da cidade em questo.
Como foi falado anteriormente, o DW deve auxiliar a compra de novos livros e na
distribuio deles entre as cidades, caso acontea e expanso da universidade.
sabido que a modelagem dimensional centrada em assuntos, analisando o
modelo relacional e as informaes dadas pelos gestores. Tanto a anlise para
compra quanto a anlise para a distribuio centrada nos emprstimos feitos,
ouseja, esse o assunto em questo que se deve trabalhar no DW.
Identificando o assunto, sabese que, num modelo dimensional, ele
representado por uma tabela fato, ou seja, os valores que so totalizados so
relacionados aos emprstimos feitos.
Como foi verificado que todas as decises que se deseja tomar so relacionadas
aos valores dos emprstimos, no existe a necessidade de ter outras tabelas fato,
mas importante lembrar que num modelo dimensional podem existir muitas
tabelas fato.
Aps identificar os assuntos que o DW ir tratar, devemse levantar as
dimenses que so utilizadas para agrupar e cruzar as informaes contidas no
DW, para isso, devemos responder a questes do tipo: quem?, quando?,
oqu? e onde?.
Iniciando pelo quem?, fcil verificar que associado est diretamente
relacionado com a pergunta quem, mas em nenhum momento os gestores
fizeram perguntas do tipo: quem so os associados que..., dessa maneira
podese dispensar essa dimenso.
A prxima pergunta quando?, pois os gestores falaram que se deseja agrupar
valores por ms, ento, essa ser a unidade atmica de tempo, ou seja, temse
uma dimenso que possui todos os meses no formato ms/ano, os quais
tiverem registros de emprstimo na base relacional.
Identificando o quando? podese passar para as questes o qu?,
remetendoa: o que emprestado? A resposta nos guia para a dimenso: Livro.
A dimenso livro ajuda a saber quais ttulos no esto suprindo a necessidade e
devem ser comprados imediatamente. Outra informao que importante ser
utilizada como dimenso e est relacionada com Livro Assunto, ou seja, quais os
assuntos que esto sendo mais solicitados?

Data Warehouse

88

Por fim, perguntado onde? e podese chegar resposta de cidade, que um


dos requisitos apresentados na descrio das necessidades da camada gerencial.
Concludo isso, podemse levantar as seguintes dimenses: tempo, livro, assunto
e cidade. Para facilitar a visualizao apresentada a modelagem dimensional,
apartir das informaes levantadas na Figura 4:
Figura 4 Modelagem dimensional para o DW da biblioteca

Fonte: Elaborao do autor, 2012.

Por meio do modelo apresentado so facilmente respondidos quais foram os


assuntos de livros mais requisitados por moradores de uma cidade no perodo de
um ano, apenas fazendo cruzamento das dimenses e totalizando os valores da
tabela fato_emprstimo.
O modelo responde s necessidades solicitadas pela gerncia da biblioteca e
permite, de maneira mais intuitiva e rpida, o consumo das suas informaes.

Abordagens para desenvolvimento de um DW


Para a modelagem e desenvolvimento do DW do estudo de caso apresentado
anteriormente, o autor segue alguns passos. Mas vale lembrar que existem vrias
outras abordagens para o desenvolvimento de um DW. Sempre que se fala em
data warehouse, difcil no se lembrar dos autores principais desse assunto:
Inmon e Kimball, cada um desses autores apresenta abordagens diferentes,
apresentadas a seguir. Inicialmente, apresentanda a abordagem de Inmon, que
se pode entender como de cima para baixo ou em ingls top down. Segundo
Dill(2002), a abordagem de Inmon requer que o planejamento e o projeto sejam

Ps-graduao

89

efetuados no incio do projeto, o que traz a necessidade de envolver pessoas de


todos os departamentos envolvidos na implementao do DW. Nessa abordagem,
a criao dos data marts so feitas a partir do DW j construdo e no diretamente
dos dados operacionais.
Na abordagem de Kimball ou de baixo para cima, em ingls bottom up,
trabalha com a ideia de, primeiramente, construir os data marts por setor,
nonecessitando da viso global do repositrio, o que no necessita do
envolvimento de todos os setores na primeira fase de planejamento e projeto.
ODW construdo medida que os data marts so feitos. Segundo Dill(2002),
osdata marts so carregados a partir dos dados existentes nas bases operacionais,
e o DW vai tendo os data marts incorporados dentro dele.
No livro de Turban et al(2009), apresentado um quadro com o comparativo das
duas abordagens, o mesmo pode ser observado no Quadro 2:
Quadro 2 - Comparativo da abordagem de Inmon e Kimball
Caracterstica

Inmon

Kimball

Metodologia e
arquitetura

De cima para baixo

De baixo para cima

Abordagem geral

DW para toda a
empresa(atmico) alimenta os
bancos de dados departamentais

Os data marts modelam um nico


processo de negcio, e chegase
consistncia da empresa por
meio de um barramento de dados
e do ajustarse s dimenses

Complexidade
do mtodo

Bastante complexo

Bastante simples

Comparao com
metodologias
consagradas de
desenvolvimento

Derivado da metodologia espiral

Processo de quatro passos;


uma fase dos mtodos de
sistema de gerenciamento de
banco de dados relacional.

Discusso do
projeto fsico

Bastante detalhada

Bastante leve

Modelagem de dados

Orientada por assunto

Orientada por processo

Acessibilidade ao
usurio final

Baixa

Alta

Objetivo

Proporcionar uma soluo


tcnica slida com base
em mtodos e tecnologias
comprovadas de banco de dados

Proporcionar uma soluo


que facilite aos usurios finais
fazer consultas diretas aos
dados e ainda obter tempos
razoveis de resposta

Fonte: Turban et al(2009, p. 78).

Data Warehouse

90

Alguns autores afirmam que possvel trabalhar com uma abordagem mista,
que utiliza vantagens especficas de cada modelo para o seu cenrio em
questo(DILL, 2002).

Evoluo do DW
A ideia do uso dos repositrios do tipo DW est cada vez mais presente nas
organizaes, por conta dessa demanda, comum novos trabalhos sobre esse
tema, o que muito bom, pois faz com que essa abordagem acompanhe a
evoluo dos cenrios que as emprega.
No livro de Inmon, Strauss e Neusjloss(2007), foi cunhado o termo DW 2.0, que
trata da chamada segunda gerao dos data warehouse. Nessa nova abordagem,
oDW no se preocupa apenas em integrar dados de vrias bases operacionais, mas
tambm integrar dados estruturados com dados no estruturados(texto livre).
O trabalho de Silva(2011, p. 36) apresenta mais detalhes sobre os DW 2.0:
a segunda gerao do DW apresenta distintos setores conforme a
necessidade de acesso e a temporalidade da informao. Esses setores so:
Interactive, Integrated, Near line e Archival. Outra mudana importante que
os metadados, tanto tcnicos quanto de negcio, precisam de um ambiente
comum e uma estrutura local para cada componente das plataformas de BI.

Como pode ser observado, a evoluo do DW para o DW 2.0 segue as mesmas


tendncias previstas para a evoluo da rea de business intelligence, sabido
que o chamado BI 2.0 e BI 3.0 considera tambm a anlise dos dados no
estruturados, bem como o cruzamento das informaes do repositrio com os
provenientes da web.

Referncias
CAMPOS, R. A. Qualidade de dados em Data Warehouse. TCC(Graduao em Bacharelado
em Sistemas de Informao). Centro de Ensino Superior de Juiz de Fora, Juiz de Fora, 2005.
INMON, W.; STRAUSS, D.; NEUSHLOSS, G. DW 2.0 The Architecture for the Next
Generation of Data Warehousing. 2007.
KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: The Complete Guide to
Dimensional Modeling. Wiley, 2002.

Ps-graduao

91

NAPOLI, Marcio. Aplicao de Ontologias para apoiar operaes analticas sobre fontes
estruturadas e no estruturadas. 2011. Dissertao(Mestrado) Universidade Federal de
Santa Catarina, Programa de PsGraduao em Engenharia e Gesto do Conhecimento,
Florianpolis, 2011.
OLIVEIRA, Wilson J. Data Warehouse. Visual Books, Florianopolis, 2002.
SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias
semnticas para suporte a aplicaes analticas. 2006. Tese(Doutorado) Universidade
Federal de Santa Catarina, Centro Tecnolgico. Programa de PsGraduao em
Engenharia de Produo, Florianpolis, 2006.
SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento
analtico baseado em tecnologias semnticas e em linguagem natural. 2011.
Dissertao(Mestrado) Universidade Federal de Santa Catarina, Programa de
PsGraduao em Engenharia e Gesto do Conhecimento, Florianpolis, 2011.
TURBAN, Efraim et al. Business Intelligence Um enfoque gerencial para a inteligncia do
negcio. Editora Bookman, Porto Alegre, 2009.

Data Warehouse

92

Atividades de Autoaprendizagem
1) Levando em considerao o contedo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:
a. ( ) A utilizao dos repositrios do tipo DW esto cada vez mais presentes nas
empresas.
b. ( ) O processo de integrao dos dados algo bastante simples e rpido
deconceber.
c. ( ) Os dados nas tabelas fato so agrupados e consolidados de modo a facilitar
o consumo da informao.
d. ( ) Podese fazer uma analogia das dimenses de um DW com filtros a serem
aplicados numa consulta.
e. ( ) As abordagens de DW esto em constante evoluo, a prova disso a
concepo do chamado DW 2.0.
f. ( ) As medidas de um DW uma nomenclatura equivalente a tabelas fato.

Atividade colaborativa
Nesta unidade, voc estudou uma srie de conceitos relacionados com sistemas
de informao e sistemas de apoio deciso. Responda pergunta a seguir
utilizando a ferramenta Frum, no se esquea de comentar as respostas dos
seuscolegas.
Nesta unidade, foi estudado sobre os repositrios data warehouse, tambm foi
visto que Inmon, considerado como um dos pais dessa abordagemj trabalha
com o conceito do DW2.0. Sendo assim, faa um paralelo dessa evoluo com a
evoluo do BI, BI 2.0 e BI 3.0.

Ps-graduao

93

Sntese
Nesta unidade, so estudados os componentes de um DW, bem como qual o
seu ciclo de vida de desenvolvimento, qual a sua importncia para a tomada de
deciso, sua arquitetura bsica, como se d a integrao e carga dos seus dados,
quais as suas possveis abordagens e construes.

Saiba Mais
Bill Inmon apresenta um artigo para o site Information Management, falando
sobre as novas tendncias dos Data Warehouse e mais detalhes sobre DW2.0;
uma leitura bastante interessante, vale a pena:
http://www.informationmanagement.com/issues/20060401/10511111.html

Data Warehouse

Unidade 4

Descobrindo o conhecimento

Objetivos de Aprendizagem
Compreender as fases do processo de descoberta de conhecimento
emvolume de dados.
Conhecer tcnicas de minerao existentes e aplicveis em um sistema
de Business Intelligence.
Julgar o uso de cada tcnica levando em considerao o contexto
doproblema.

Introduo
O conhecimento junto aos ativos intangveis das organizaes est cada vez
mais ganhando espao como um dos bens mais valiosos para as chamadas
organizaes do conhecimento. Os sistemas de apoio deciso surgiram como
resposta falta de sistemas focados em auxiliar a camada gerencial.
Com a evoluo desses sistemas nascem as solues de Business Intelligence, que
possuem repositrio de dados unificados, prprocessados e com uma organizao
focada para facilitar a anlise dos seus dados. Para conseguir chegar ao
conhecimento que est implcito nesses dados e nos repositrios de documentos,
devemse utilizar solues baseadas em descoberta de conhecimento.
Esta unidade est focada nas estratgias de descoberta de conhecimento,
utilizando como fonte bancos de dados ou textos no estruturados, que sejam
relevantes para o domnio da organizao.

96

Introduo descoberta de conhecimento


Flvio Ceci

A utilizao de repositrios centralizados de informao, como os Data Warehouse,


auxilia a organizar os dados espalhados pelas vrias bases da organizao e os
modela de modo a facilitar a anlise.
Normalmente, o DW tem os seus dados modelados utilizando a modelagem
dimensional, que os organiza de maneira mais apropriada para a anlise, tanto
humana quanto computacional. Desse modo, o acesso informao fica muito
mais fcil e rpido. Cada vez mais as organizaes esto dando ateno para as
suas informaes e conhecimentos implcitos nas bases de dados e documentos.
Segundo Garcia, Varejo e Ferraz(2005), a informao e o conhecimento vm
movimentando o desenvolvimento mundial, e cada vez mais so necessrias
pessoas especializadas e ferramentas para auxiliar na aquisio, representao,
manipulao, apresentao e armazenamento.
Com os dados organizados e armazenados no DW, o prximo passo para a
descoberta de conhecimento aplicar mtodos de anlises estatsticas e de
inteligncia artificial(IA), dessa maneira, novas relaes e informaes sero
descobertas(CARVALHO, 2005).
A descoberta de conhecimento a etapa que visa a entregar contedo de
mais valor para os tomadores de deciso da organizao. Tradicionalmente,
adescoberta de conhecimento sensvel aos tipos de dados que se utiliza como
fonte. Essas fontes podem armazenlos no estruturados ou estruturados.
Entendese como dados estruturados aqueles que possuam uma estrutura que
facilite a sua organizao, armazenamento e recuperao, podese citar como
exemplo aqueles armazenados em bancos de dados, em arquivos XML, JSON,
entre outros.
Os dados no estruturados so armazenados geralmente em linguagem natural,
ou seja, esto em livros, manuais, revistas, blogs, nas redes sociais, entre outros.
Arecuperao de informao para esse tipo de dado muito mais complexa,
jque no existe um padro prdefinido que facilite a sua organizao.
Tendo em vista os dois tipos de dados apresentados anteriormente existem
tcnicas especficas para a anlise de cada tipo. Para a anlise de dado estruturada,
utilizase o processo chamado de: descoberta de conhecimento em banco de
dados, em ingls: Knowledge Discovery in Database(KDD), para a anlise dos
dados no estruturados utilizase a tcnica descoberta de conhecimento em

Ps-graduao

97

bases textuais, em ingls: Knowledge Discovery in Text(KDT), a Figura 1 mostra


graficamente as informaes apresentadas nesse pargrafo:
Figura 1 - Tipos de descoberta de conhecimento
Descoberta de
conhecimento

KDT

KDD

Banco de
Dados
Documentos
no estruturados
Fonte: Elaborao do autor(2012).

A grande quantidade de dados existentes em bancos de dados ou via internet


tornouse um desafio para as pessoas cuja funo a tomada de deciso.
Osmtodos tradicionais de transformao de dados em conhecimento dependem
da anlise e da interpretao pessoal deles, o que um processo lento, caro e
altamente subjetivo.
Nesse contexto, fazse necessria uma metodologia capaz de extrair informaes
teis para o suporte s decises, estratgias de marketing e campanhas
promocionais, entre outras. A busca por essas informaes realizada
utilizandose sofisticadas tcnicas na anlise daqueles dados, a fim de encontrar
padres e regularidades neles. A esse processo dse o nome de Descoberta de
Conhecimento em Banco de Dados(REZENDE, 2005).

Descoberta de conhecimento e minerao de dados


Embora muitos autores usem o termo minerao de dados(data mining) como
sendo um passo particular do KDD, que consiste na aplicao de algoritmos
especficos para a extrao de padres a partir das bases de dados, neste texto,
o qual est baseado em diversos autores e em concordncia com vrios deles,
trataremos os termos KDD e minerao de dados como sinnimos.

Descobrindo o conhecimento

98

A Figura 2 apresenta a relao entre KDD e data mining:


Figura 2 - Relao entre KDD e DM

KDD

Data Mining

Fonte: Carvalho(2002).

As ferramentas de data mining podem prever futuras tendncias e


comportamentos, permitindo s empresas um novo processo de tomada
de deciso, baseado, principalmente, no conhecimento acumulado e,
frequentemente, deixado de lado, contido em seus prprios bancos de dados.
Um dado a estrutura fundamental sobre a qual um sistema de informao atua.
A informao pode ser vista como uma representao ordenada e enxuta dos
dados resultantes de uma consulta que permite a visualizao e interpretao
deles. O conhecimento provm da interpretao das informaes apresentadas
pelo sistema de banco de dados.
Existem muitas reas que do apoio ao processo de tomada de deciso, veja a
Figura 3:
Figura 3 - reas relacionadas com a descoberta do conhecimento
Sistema
Especialista
Aprendizado
de Mquina

Visualizao

Estatstica
Descoberta de
Conhecimento

Processamento de
Linguagem natural

Fonte: Adaptado de Adriaans e Zantinge(1996).

O processo de descoberta de conhecimento conta com a utilizao de abordagens


estatsticas, aprendizagem de mquina, sistemas especialistas, processamento de
linguagem natural, entre outras. Outra etapa muito importante como apresentar
e visualizar o conhecimento extrado a partir das informaes.

Ps-graduao

99

Referncias
ADRIAANS, P.; ZANTINGE, D. Data mining. Addison Wesley Longman, England, 1996.
CARVALHO, D. R. Um mtodo hbrido rvore de deciso / algoritmo gentico para data
mining, Tese Doutorado PUCPR, Curitiba, 2002.
CARVALHO, Lus Alfredo V. Data Mining: A Minerao de Dados no Marketing, Medicina,
Economia, Engenharia e Administrao. Editora Cincia Moderna. Rio de Janeiro, 2005.
GARCIA, Ana Cristina B.; VAREJO, Flvio M.; FERRAZ, Inhama N. Aquisio de
Conhecimento. In Sistemas Inteligentes: Fundamentos e Aplicaes. Organizao:
REZENDE, Solange O. Editora Manole, So Paulo, 2005.
REZENDE, Solange. Sistemas Inteligentes; Fundamentos e aplicaes. So Paulo:
Ed.Manole, 2005.

Descobrindo o conhecimento

100

O processo de KDD
Flvio Ceci e Glucio Adriano Fontana

As tecnologias para armazenamento de informao so to comuns quanto


numerosas. Juntase a isso a vontade dos empreendedores de extrair o mximo
de vantagem de suas informaes. Esses elementos tornam a minerao de dados
e a busca de conhecimento a partir de banco de dados uma rea de conhecimento
em crescente expanso nos dias de hoje. Ser rara, em um futuro prximo, uma
empresa ou organizao que no invista nas tecnologias do conhecimento.
Segundo Navega(2002), talvez a definio mais importante de Data Mining
ou Minerao de Dados tenha sido elaborada por Fayyad et al.(1996) apud
Navega(2002), [...] o processo notrivial de identificar, em dados, padres
vlidos, novos, potencialmente teis e ultimamente compreensveis.
Navega(2002) expe ainda que esse processo valese de diversos algoritmos
(muitos deles desenvolvidos recentemente), que processam os dados e
encontram esses padres vlidos, novos e valiosos.
preciso ressaltar um detalhe que costuma passar despercebido na literatura,
embora os algoritmos atuais sejam capazes de descobrir padres vlidos e novos,
ainda no temos uma soluo eficaz para determinar padres valiosos. Por essa
razo, o Data Mining ainda requer uma interao muito forte com analistas humanos,
que so, em ltima instncia, os principais responsveis pela determinao do valor
dos padres encontrados. Alm disso, a conduo(direcionamento) da explorao
de dados tambm tarefa fundamentalmente confiada a analistas humanos, um
aspecto que no pode ser desprezado em nenhum projeto que queira ser bem
sucedido. Data Mining parte de um processo maior de conhecimento denominado
Knowledge Discovery in Database(KDD).
KDD consiste, fundamentalmente, na estruturao do banco de dados; na seleo,
preparao e prprocessamento dos dados; na transformao, adequao e
reduo da dimensionalidade dos dados; no processo de Data Mining; e nas
anlises, assimilaes, interpretaes e uso do conhecimento extrado do banco
de dados, por meio do processo de Data Mining.
As tarefas de minerao de dados(ou processo de descoberta de conhecimento
em bancos de dados KDD Knowledge Discovery in Database) auxiliam esse
processo de aquisio de conhecimento. Diversos algoritmos de minerao
existem e cada um possui uma particularidade e aplicao.

Ps-graduao

101

As tarefas concernentes ao processo de KDD incluem dificuldades com a extrao,


preparao e validao dos dados extrados e a alocao de recursos no cliente
e, frequentemente, so subestimadas durante o planejamento dos cronogramas
para a execuo dos projetos. As atividades de obteno e limpeza dos dados
geralmente consomem mais da metade do tempo dedicado ao trabalho.
Em se tratando de regras de classificao(uma das tcnicas de minerao de
dados que se prope a agrupar conjuntos de padres semelhantes para anlise),
a maioria das ferramentas de data mining se reporta a problemas de classificao
que atentam a encontrar regras que particionam dados em conjuntos disjuntos.
Aplicaes incluem aprovao de crdito, determinao de perfil de clientes etc.
Por exemplo, se h um registro de vendas de produtos em um supermercado,
podese particionar conjuntos de produtos como altamente lucrativos,
namdia ou no lucrativos, baseandose no lucro da rede e no volume de
vendas. Isto , se a tecnologia corrente em bancos de dados no puder acomodar
diretamente a histria das vendas, no se poder deduzir a evoluo da
lucratividade de itens individuais.

Origem dos dados


Como o prprio nome sugere no processo KDD, a descoberta de conhecimento
feita em cima do banco de dados da organizao.
recomendado que se utilize um repositrio de dados como Data Warehouse (DW),
o qual os armazena de maneira centralizada e j prprocessados, facilitando a
suaanlise.
Caso a organizao no disponha, podese utilizar uma base operacional, mas o
resultado pode no ser to efetivo. Outro problema que pode ocorrer, utilizando
como base uma base operacional, a falta de agilidade na resposta.
Vale lembrar que todas as transformaes, limpezas e agrupamentos feitos pelo
processo de ETL para o DW, no esto presente nas bases operacionais das
organizaes, o que reflete numa quantidade de dados maior e no orientadas
anlise, e sim a processo, o que dificulta o trabalho das tcnicas e das ferramentas
de minerao de dados, refletindo diretamente na performance da anlise.

Descobrindo o conhecimento

102

Caractersticas dos dados


Sobre as caractersticas de dados, Romo(2002) afirma que elas, quando
incorporadas nos dados de anlise, tais como nmero de registros, tipo dos dados,
e quantidade de erros, afetam diretamente a exatido da aprendizagem, de
forma bastante significativa. Tendo em vista esse detalhe, podese concluir que
comparada com os efeitos de algumas caractersticas dos dados, a escolha do
algoritmo de aprendizagem se torna menos importante.
Para se ter certeza do impacto, Romo(2002) diz que se deve considerar os
seguintes questionamentos:
Quais caractersticas dos dados afetam mais a minerao de dados?
Como estas caractersticas interagem entre si?
Os dados podem ser caracterizados de forma a melhorar a descoberta
deconceitos?
Percebese que so necessrias etapas para preprocessar esses dados antes de
submetlos aos algoritmos de minerao de dados. A seguir, so apresentadas as
etapas do processo KDD.

Etapas do processo de KDD


Segundo Dias(2002), o termo processo remete ao entendimento que existem
vrios passos envolvendo preparao de dados, procura por padres, avaliao
de conhecimento e refinamento. Todos esses passos so interativos e iterativos,
ou seja, dependem da constante interferncia de um tcnico especialista e se
repetem de acordo com a necessidade:
1. Conhecimento do domnio da aplicao: inclui o conhecimento relevante
anterior e as metas da aplicao, ou seja, a identificao do problema.
Esse passo utiliza o domnio do especialista para identificar problemas
importantes e os itens necessrios para resolvlos. Entretanto,
importante que essa etapa seja realizada em conjunto com um
engenheiro de conhecimento.
2. Criao de um banco de dados alvo: definir o local de armazenamento e
selecionar um conjunto de dados ou dar nfase para um subconjunto de
dados nos quais o descobrimento ser realizado.

Ps-graduao

103

3. Prprocessamento: inclui operaes bsicas, como remover rudos


ou subcamadas, se necessrio, coletando informao para modelar,
decidindo estratgias para manusear(tratar) campos, onde se nota
facilmente que no influenciam na soluo das perguntas que se deseja
responder. a fase mais trabalhosa e frequentemente a mais demorada
de todo o processo.
4. Transformao de dados e projeo: consiste em encontrar formas
prticas para representao dos dados, dependendo da meta do
processo e o uso de reduo de dimenses e mtodos de transformao
para diminuir o nmero efetivo de variveis que deve ser levado em
considerao; ou encontrar representaes invariveis para os dados.
5. Minerao de dados(Data Mining): A fase que muitas vezes d nome
ao processo de KDD inclui a deciso do propsito do modelo derivado
do algoritmo de minerao. Alm dessa deciso, necessrio selecionar
mtodos para serem usados na procura por padres nos dados, bem
como decidir quais modelos e parmetros podem ser apropriados,
determinando um mtodo de minerao particular a ser aplicado.
Referemse a dados que provavelmente contenham erros de digitao
ouvalores absurdos.
6. Interpretao: inclui a interpretao dos padres descobertos e o possvel
retorno a algum passo anterior, alm de uma possvel visualizao dos
padres extrados, removendo aqueles redundantes ou irrelevantes e
traduzindo os teis em termos compreendidos pelos usurios.
7. Utilizao do conhecimento obtido: inclui a necessidade de incorporar
este conhecimento para a melhora de performance do sistema, adotando
aes baseadas no conhecimento, ou simplesmente documentando e
reportando esse conhecimento para grupos interessados.

Descobrindo o conhecimento

104

Figura 1 - Fases do processo KDD

Fonte: Imasters, 2012.

A Figura 1 apresenta a interao e o fluxo entre as sete etapas apresentadas do


processo KDD; vale lembrar que alguns autores podem considerar mais ou menos
etapas. A Figura 2 apresenta os processos KDD na viso de Romo(2002):
Figura 2 - Processo KDD na viso de Romo(2002)
Dados

Dados

Integrao

Pr Processamento

Minerao dos Dados

Ps Processamento

Conhecimento
Fonte: Romo(2002).

Ps-graduao

105

Analisando a Figura 2, o autor parte do processo de integrao dos dados das


bases e/ou uso de repositrios, partese para o processo de prprocessamento
que contempla a seleo de atributos e transformaes sobre os dados; aplicao
de mtodos(algoritmos) de minerao de dados para extrair os padres deles;
por fim, avaliado o resultado da etapa de minerao de dados para identificar os
padres considerados como conhecimento.
A seguir so apresentados os tipos de usurios envolvidos no processo de KDD.

Classe de usurios envolvidos no processo KDD


O processo KDD possui alguns perfis de usurios que so auxiliares e participam
do processo KDD. Segundo Oliveira(2000), as classes de usurios envolvidos so:
Especialista do Domnio: o responsvel por deter o entendimento do
domnio da aplicao. Durante a etapa de anlise de dados, o especialista
sensvel a qual rea est sendo analisada, como por exemplo, se o
contexto analisado for o de vendas o especialista pode ser o diretor
demarketing;
Analista: responsvel pela execuo do processo KDD. Deve possuir
amplo conhecimento das etapas que fazem parte desse processo.
Elepode ser o analista de sistemas, estatstico ou administrador de
banco de dados da organizao;
Usurio final: frequentemente aquele que utiliza o conhecimento
extrado no processo de KDD para auxililo em um processo de tomada
de deciso.
A interao entre as classes de usurio bastante importante para o processo
como um todo. Segundo Oliveira(2000), durante a realizao do processo KDD,
ainterao e comunicao entre o analista, especialista do domnio e usurio
final muito importante uma vez que o sucesso da extrao de conhecimento
depende da comunicao entre eles.

Descobrindo o conhecimento

106

Pesquisas sobre KDD atuais


O uso do KDD uma prtica bastante utilizada e atual, tendo em vista isso, as
pesquisas nessa rea continuam constantes. No trabalho de Dias(2002) foram
identificados alguns desafios para a rea:
Grandes conjuntos de dados e alta dimensionalidade;
Interao com o usurio e conhecimento anterior adquirido;
Dados perdidos;
Gerenciamento de mudana de variveis e conhecimento;
Interao;
Multimdia e dados orientados a objetos.
O trabalho do autor apresentado anteriormente foi desenvolvido h, pelo menos,
10 anos, e muitos desses desafios no foram solucionados ainda. Podese encarar
tambm como o futuro ou o presente das pesquisas relacionadas com KDD a
utilizao de contedo semntico na cruzada de informao dimensional.

Referncias
DIAS, Cristiano Araujo. Descoberta de Conhecimento em Banco de Dados para Apoio
Tomada de Deciso. Especializao em Informtica Empresarial. Unesp. Guaratinguet, 2002.
NAVEGA, Sergio. Princpios do DataMining. Cenadem 2002, Anais do Infoimagem, 2002.
Disponvel em: <http://www.intelliwise.com/reports/i2002.htm>. Acesso em: maro de 2012.
OLIVEIRA, Robson Butaca Taborelli de. O Processo de Extrao de Conhecimento de
Base de Dados Apoiado por Agentes de Software.(Dissertao) Cincia da Computao.
Universidade de So Paulo. So Carlos, 2000.
ROMO, Wesley. Descoberta de Conhecimento Relevante em Banco de Dados sobre
Cincia e Tecnologia.(Tese) Programa de PsGraduao em Engenharia de Produo.
Universidade Federal de Santa Catarina. Florianpolis, 2002.

Ps-graduao

107

Tcnicas de Minerao de Dados


Flvio Ceci e Glucio Adriano Fontana

A evoluo da computao permitiu a automatizao de uma srie de processos


organizacionais, bem como a comunicao interna e externa. No entanto,
junto a essa evoluo nasce a exploso na quantidade de dados produzidos.
Segundo Witten e Frank(2000), um dos grandes problemas atuais a produo
desordenada de dados a partir das operaes de um indivduo ou organizao.
Essa grande quantidade faz emergir a necessidade de discos de armazenamento
maiores, e esse processo nunca para, ou seja, sempre ser necessrio comprar um
novo disco rgido maior.
Junto ao armazenamento, surge a necessidade de recuperao, de maneira rpida
e eficiente, o que faz as organizaes se preocupar em como organizar esses
dados. sabido que por trs dos dados brutos se esconde uma grande quantidade
de informaes e conhecimento valiosos para a tomada de deciso.
O uso das tcnicas de minerao de dados(em ingls Data Mining) com a criao
de repositrios de dados organizacionais representam processos imprescindveis
para a descoberta de conhecimento. Para Rezende(2003), o uso de tcnicas
de minerao de dados se d pela combinao de uma srie de algoritmos que
definem um paradigma de extrao de conhecimento, importante destacar que
para uma mesma tcnica podese utilizar mais de um algoritmo.

Processos da minerao de dados


Para que as tcnicas de minerao de dados obtenham sucesso na sua anlise
e atuem na resoluo dos problemas, necessrio que sejam efetuados alguns
processos. A Figura 1 foi retirada do trabalho de Quoniam et al(2001), que
apresenta todos os seus processos.

Descobrindo o conhecimento

108

Figura 1 - Processos para a minerao de dados

Base de
Dados Bruta

Visualiza

2 Etapa de Seleo
dos Dados

Limpa

1 Etapa
Problema que ser
objeto de estudo

Base de Dados
de Trabalho
3 Etapa de
Preparao dos Dados

Data Mining

Anlise dos
resultados
Assimilao do
Conhecimento
4 Etapa de
Anlise dos dados

Fonte: Quoniam et al(2001).

Inicialmente, identificado qual(quais) problemas se deseja resolver utilizando as


tcnicas de minerao de dados. Alm disso, podese partir para o levantamento
das perguntas que se deseja responder com a sua utilizao.
A segunda etapa do processo a seleo e organizao dos dados que sero
utilizados como base para a anlise. Essas duas etapas iniciais so comuns no
processo de implementao de um data warehouse e podem ser reaproveitadas.
A terceira etapa est focada na preparao dos dados, o prprocessamento.
Agora eles so organizados de modo a serem melhor analisados pelos
algoritmosutilizados.
Na quarta e ltima etapa feita a anlise propriamente dita e aplicado o
algoritmo para a minerao de dados, a fim de explicitar novas informaes e
conhecimentos de domnio da organizao.
A utilizao das tcnicas de minerao de dados no esto limitadas ao domnio
da computao, muitas outras reas tambm a utilizam, na prxima seo so
apresentadas essas reas com mais detalhes.

Ps-graduao

109

Segmentos para o uso de minerao de dados


Muitas so as reas e segmentos que fazem uso das tcnicas de minerao de
dados, segundo Carvalho(2005), muitos so os exemplos do seu uso. A seguir so
apresentados alguns desses exemplos, levantados do livro desse autor:
Aplicaes do governo: o governo americano utiliza minerao de dados
h bastante tempo para identificao de padres de transferncias de
fundos internacionais, que se parecem com a manipulao do dinheiro
pelo narcotrfico;
Supermercados: algumas redes de supermercados utilizamse de
tcnicas de minerao de dados para oferecerem ofertas a seus clientes
de maneira personalizada, a partir dos dados anteriores de suas compras;
Na medicina: o uso de minerao de dados para auxiliar na deteco de
doenas a partir de sintomas e do histrico de sade do paciente.
Segundo Martinhago(2005), no existe uma s tcnica que pode ser aplicada
a fim de solucionar um problema ou fazer uma anlise, mas existem tcnicas
que so mais eficientes para resolver melhor alguns problemas, por esse motivo
devese conhecer bem as tcnicas de minerao de dados, seus algoritmos e suas
possveis aplicaes.
Muitas so as tcnicas utilizadas de minerao de dados para os mais variados fins,
as mais utilizadas so:
Classificao de dados(data classification): consiste no processo
de encontrar propriedades comuns e um determinado conjunto de
objetos de um banco de dados e classificlos em diferentes classes,
deacordo com um modelo de classificao. Para construir um modelo
de classificao, um banco de dados de exemplo definido como o
conjunto de treinamento, onde cada tupla, que se pode definir com
uma linha de uma tabela do banco de dados, consiste em um conjunto
de mltiplos atributos comuns das tuplas de um grande banco de
dados e, adicionalmente, cada tupla contm um rtulo marcado com
a identificao de uma classe conhecida associada a ela. O objetivo da
classificao de dados primeiro analisar o conjunto de treinamento e
desenvolver uma apurada descrio ou modelo para futuros testes, com
os dados de um grande banco de dados. Os passos bsicos so: definio
de um conjunto de exemplos conhecidos(treinamento); treinamento
sobre esse conjunto; gerar regras de classificao ou descrio.

Descobrindo o conhecimento

110

Clusterizao: instintivamente, as pessoas visualizam os dados


segmentados em grupos discretos, como, por exemplo, tipos de
plantas ou animais. Na criao desses grupos discretos podese
notar a similaridade dos objetos em cada grupo. Enquanto a anlise
de grupos frequentemente feita de modo manual em pequenos
conjuntos de dados, para grandes conjuntos, um processo automtico
de clusterizao(dataclustering), por meio da tecnologia de minerao
de dados mais eficiente. Em adio, os cenrios existentes so
muito similares, tornandoos competitivos, requerendo a utilizao de
algoritmos complexos, que determinem a segmentao mais apropriada.
Nesse mtodo de minerao, considerado do tipo diviso e conquista,
o algoritmo deve criar as classes por meio da produo de parties do
banco de dados em conjuntos de duplas. Essa partio feita de modo
que duplas com valores de atributos semelhantes, ou seja, propriedades
de interesse comuns sejam reunidas dentro de uma mesma classe.
Estimativa: estimar algum ndice determinar seu valor mais provvel
diante de dados de outros ndices semelhantes sobre os quais se
tm conhecimento. Suponha que se deseja saber o gasto de famlias
cariocas com lazer e que para isso existam ndices de gastos de famlias
paulistanas com lazer em funo da faixa etria e padro sociocultural.
No sabemos exatamente quanto as famlias cariocas gastam com lazer,
mas podemos estimar, baseados nos dados das famlias paulistanas.
Certamente, essa estimativa pode nos levar a erros, uma vez que
Rio de Janeiro e So Paulo so cidades com geografias diferentes e
oferecem diferentes opes de lazer a seus frequentadores. A arte de
estimar exatamente esta: determinar da melhor forma possvel um
valor, baseandose em outros valores de situaes idnticas, mas nunca
exatamente iguais.
Previso: resumese na avaliao do valor futuro de algum ndice,
baseandose em dados de comportamento passado a esse ndice.
Apreviso pode incluir tarefas como: se o ndice da bolsa de valoresX
ir subir ou descer amanh, quanto o valor da bolsa ir variar, qual ser
a populao de uma cidade Y daqui a dez anos, entre outras. Onico
meio de verificarmos se uma previso foi bem feita aguardar o
acontecimento do fato e conferir se ela se verificou ou no.
Regras de associao: determinam que fatos ocorrem simultaneamente
com probabilidade razovel de coocorrncia, ou que itens em uma
massa de dados esto presentes juntos(correlao). Vendas casadas ou
a anlise de um carrinho de supermercado para ver quais itens os clientes
compram conjuntamente, so exemplos desta tcnica. Umaregra de
associao definida como: Se X ento Y ou X Y, ondeXe Y so

Ps-graduao

111

conjuntos de itens e X Y = . Dizse que X o antecedente da regra,


enquanto que Y o consequente dela. Um algoritmo baseado em
regras de associao consiste em descobrir esse tipo de regra entre os
dados preparados para a garimpagem. Medidas estatsticas revelam a
frequncia de uma regra no universo dos dados garimpados.
Para clarificar o entendimento de como funcionariam tcnicas de minerao de
dados aplicadas sobre uma massa de dados, seja ela proveniente de informaes
de um DW, de um banco de dados transacional ou da Web(webmining), so
demonstrados dois exemplos de regras de associao e de clusterizao,
mostrando como se pode descobrir nova informao e assumila como regra,
isto, conhecimento.

Utilizando Regras de Associao para venda casada


Pense em uma cadeia de lojas de farmcias. Desejase saber quais produtos
desencadeiam a compra de outros.
Por exemplo, ao encontrar a seguinte associao {mercrio, gaze, esparadrapo}
{algodo}(0,78), significando que 78% dos clientes que compram mercrio, gaze,
esparadrapo tambm compram algodo, o gerente de uma farmcia pode veicular
campanhas publicitrias utilizando esses produtos, displos em lugares prximos
na prateleira, entender o porqu de uma possvel queda nas vendas de alguns dos
produtos, entre outras concluses. Muitos algoritmos foram desenvolvidos com
o objetivo de descobrir regras de associao. Desses, o mais utilizado o Apriori,
sendo que os demais ou so extenses deste ou o utilizam(AGRAWAL, 1995 apud
CARVALHO, 2000).
O algoritmo Apriori realiza a garimpagem em dois passos: gerao e poda.
Noprimeiro, feita uma varredura sobre o arquivo, a fim de gerar todos os
conjuntos de combinaes de valores de colunas que aparecem no arquivo.
Nosegundo, so considerados apenas aqueles conjuntos que aparecem no
arquivo com uma frequncia no menor que um valor mnimo prfixado, so
os chamados grandes conjuntos. A medida da frequncia de um conjunto X de
valores chamada de suporte, assim definido:
Suporte (X) =

N de registros que contm os elementos do conjunto X


N total de registros do arquivo

Descobrindo o conhecimento

112

E o fator de confiana da regra dado por:


Confiana (R) =

N de registros com X e Y
N de registros com X

Na tabela seguinte, exemplificando um espao amostral de dez registros,


considerase 1 para produto comprado por cada cliente.
Tabela 1 Transaes de vendas a clientes
Transao

Gaze

Esparadrapo

Mercrio

10

Fonte: Carvalho(2000).

E considerandose um grau de confiana mnimo de 0,80, os clculos denotaram


as seguintes relaes vlidas(com grau de confiana superior ao mnimo):
Tabela 2 Regras com confiana maior que o mnimo
Regra
{Gaze}=Esparadrapo

0,88

{Esparadrapo}=Gaze

0,88

{Gaze}=Mercrio

0,77

{Mercrio}=Gaze

0,87

{Esparadrapo}=Mercrio

0,77

{Mercrio}= Esparadrapo

0,87

{Gaze, Esparadrapo}=Mercrio

0,75

{Gaze, Mercrio}= Esparadrapo

0,85

{Esparadrapo, Mercrio}=Gaze

0,85

Fonte: Carvalho(2000).

Ps-graduao

Fator de confiana

113

Quem leva mercrio tambm leva gaze? Vale comentar aqui que essa relao nem
sempre comutativa. Veja as linhas 3 e 4 da tabela. Ela contm valores diferentes
e regras invlidas e vlidas, respectivamente, simplesmente modificando a ordem
dos produtos, como precedente e consequente. Como voc pode notar, podese
confiar que quem leva mercrio, leva gaze(87% dos clientes), mas est abaixo do
limiar afirmar que quem leva gaze, leva mercrio. O precedente normalmente ser
o carrochefe das vendas, ele chamar o cliente para dentro do estabelecimento e
o far consumir mais.

Criando classes Clusterizando


Fazer grupos e procurar caractersticas em comum entre vrios itens e aproximar
os semelhantes o que se chama Clusterizar. Essa tcnica, muitas vezes, uma
das primeiras etapas dentro de um processo de Data Mining, j que identifica
grupos de registros correlatos.
Um cluster um agrupamento de itens que so similares a outros dentro do
mesmo agrupamento e diferentes em outros agrupamentos(HAN; KAMBER, 2006
apud ARAGO, 2008). Podemos, ento, definir a anlise de cluster, ou clusterizao,
como um processo que permite agrupar itens, de forma a maximizar a similaridade
dentro da mesma classe e a minimizar a similaridade entre as classes.
Para medir a similaridade entre itens, a anlise de cluster se baseia na proximidade
entre os valores de seus atributos. Mapeando cada atributo em uma coordenada
unidimensional, itens compostos por m atributos podem ser representados
como pontos em um espao euclidiano mdimensional.
A distncia euclidiana entre dois pontos p =(p1, p2,, pm) e q =(q1, q2,, qm)
definida como:
dist ( p, q) =

( pi
i=1

qi )

O exemplo abaixo, apresentado por Arago(2008), considera o conjunto e a


renda representando pessoas, conforme a Tabela 3. A partir dos valores dos
atributos desses itens, podemos formar o grfico bidimensional apresentado
na Figura 2, em que cada ponto representa um item(ou pessoa). Os crculos
representam os clusters ou agrupamentos mais prximos, como um algoritmo
declusterizao faria.

Descobrindo o conhecimento

114

Tabela 3 - Valores dos atributos


Idade

Renda

0,00

27

3.000,00

42

5.000,00

29

3.500,00

18

500,00

22

1.000,00

31

3.200,00

39

4.600,00

20

800,00

10

0,00

0,00

46

4.500,00

40

1.500,00

42

1.000,00

39

1.200,00

Fonte: Arago(2008)

Para usar esses clusters como classes, precisamos antes identificlos e nomelos
adequadamente. Por exemplo:
C1: Crianas. Nesses clusters temos apenas crianas, que no podem trabalhar,
portanto, sua renda nula.
C2: Jovens Iniciando a Carreira. Nesses clusters temos pessoas com idade
prxima mnima para poder trabalhar. Mas, como provavelmente no possuem
formao superior nem experincia, tm uma renda relativamente baixa.
C3: Profissionais com Curso Superior. Nesses clusters temos pessoas que
j tmexperincia e pelo patamar salarial provavelmente tambm possuem
formao superior.
C4: Altos Executivos. Nesses clusters temos pessoas de certa idade que, para
ter uma renda to alta em tal faixa etria, provavelmente fazem parte de alto
escalo gerencial.
C5: Profissionais sem Curso Superior. Nesses clusters temos pessoas de
certa idade que, por terem uma renda relativamente baixa, provavelmente no
possuem curso superior.

Ps-graduao

115

Figura 2 - Grfico bidimensional


6.000

C4

Renda

5.000
4.000

C3

3.000
2.000

C2

1.000

C5

C1

0
0

10

20

30

40

50

Idade
Fonte: Arago(2008).

A identificao e nomeao acima so apenas aproximadas e ilustrativas,


contribuindo para o entendimento didtico, e j possuem interpretao mais
emcima.
Aps a identificao e nomeao dos clusters(ou classes), podemos associar a cada
item sua respectiva classe, de acordo com o resultado da clusterizao, usando
esses dados como exemplos de treinamento para um algoritmo de classificao.
Pensar em agrupar pode ser muito til se quisermos, por exemplo, conhecer
diferenas entre hbitos de consumo de diferentes clientes em uma loja que
vende diferentes produtos. Sazonalidade de compras, qual produto determinado
cliente leva e quem mais compra este produto, e onde vivem esses clientes com
gostos e comportamentos semelhantes. Talvez seja interessante abrir uma filial
prxima a eles, no? Criando classes, estamos prospectando negcios.

Concluso
O uso das tcnicas de minerao de dados para apoiar o processo de tomada de
deciso pela camada gerencial, possibilitaa descoberta de conhecimento a partir
dos seus repositrios de dados.
Essa descoberta de conhecimento se d a partir da aplicao de tcnicas baseadas
em estatsticas e na inteligncia artificial para encontrar padres e informaes
implcitas nos dados armazenados nos repositrios das organizaes.
A minerao de dados utilizada hoje em vrios segmentos de mercado, como
por exemplo: rea mdica, geologia, economia, marketing, administrao,
engenharias, entre outras reas.

Descobrindo o conhecimento

116

Referncias
AGRAWAL, R.; SRIKANT, R. Mining Sequential Patterns. Proceedings of Eleventh
International Conf on Data Engineering. 1995.
ARAGO, Pedro O. Um estudo sobre conceitos e tcnicas de minerao de dados. 2008.
Monografia(Graduao em Tecnologia)Faculdade de Tecnologia de So Paulo, So Paulo,
2008.
BERGER, Gideon et al. Discovering Unexpected Patterns in Temporal Data using Temporal
Logic; Temporal Databases Research and Practice. Heidelberg: Ed SpringerVerlag, 1998.
CARVALHO, Lus Alfredo V. Data Mining: A Minerao de Dados no Marketing, Medicina,
Economia, Engenharia e Administrao. Editora Cincia Moderna. Rio de Janeiro, 2005.
CARVALHO, Juliano et al. Utilizao de tcnicas de datamining para reconhecimento de
caracteres manuscritos. Universidade Federal da Paraba, 2000.
FAYYAD, Usama M; PIATESTSKYSHAPIRO, Gregory; SMYTH, Padhraic; UTHURUSAMY,
Ramasamy.Advance. Knowledge Discovery and Data Mining. 1996.
LOH, Stanley. Material das disciplinas de Sistemas de Informao e Data Mining.
Disponvel em: atlas.ucpel.tche.br/~loh/. Acesso em: jul. 2009.
MARTINHAGO, Srgio. Descoberta de Conhecimento sobre o Processo Seletivo da
UFPR.(Dissertao) Mestrado em Mtodos Numricos em Engenharia. Universidade
Federal do Paran, Curitiba, 2005.
NAVEGA, Sergio. Princpios do DataMining. Cenadem 2002, Anais do Infoimagem, 2002.
QUONIAM, Luc; et al. Inteligncia obtida pela aplicao de data mining em base de teses
francesas sobre o Brasil. Cincia da Informao, v. 30, n.2, p, 2028. Braslia, 2001.
REZENDE, Solange. Sistemas Inteligentes Fundamentos e aplicaes. So Paulo: Ed.
Manole, 2003.
WITTEN, Ian H.; FRANK, Eibe. Data Mining Practical Machine Learning Tools and
Techniques with Java Implementations. Morgan Kaufmann Publishers. 2000.

Ps-graduao

117

O processo KDT
Flvio Ceci

O processo de descoberta de conhecimento traz uma srie de benefcios para a


camada de deciso. Esse processo de conhecimento em banco de dados(KDD) o
mais conhecido e utilizado pelas organizaes.
O fato que muito dos conhecimentos organizacionaisl esto disponveis
nos mais variados meios e j formados. Grande parte est disponvel como
documento textual no estruturado, por exemplo, em relatrios, emails, manuais,
notas de compra e venda.(CECI et al, 2010). Tendo em vista essa afirmao,
apresentado o Processo de Descoberta de Conhecimento em Texto(ou em ingls
KDTKnowledge Discovery in Text).
Segundo Feldman e Hirsh(1997), o processo de extrao de conhecimento em
texto no trivial de informaes implcitas nos documentos organizacionais, que
trazem muito valor para a tomada de deciso. Por no trivial Bovo(2011) explica
que isso envolve alguma busca ou inferncia, de modo que no apenas uma
computao direta de valores prdefinidos, os padres encontrados devem ser
vlidos perante os novos dados, com algum grau de certeza.
O processo KDT bastante similar ao processo KDD, basicamente o processo de
extrao de padres relevantes e no triviais a partir de bases de dados semi ou
no estruturadas. Tambm utiliza tcnicas da minerao de dados, mas nesse caso
usamse tcnicas de processamento de linguagem natural para extrair conceitos
de texto e mais uma vez anlises estatsticas, mas para recuperar padres e
tcnicas de visualizao, permitindo anlises interativas(GONALVES, 2006).
Segundo Turban(2009), Text Mining a aplicao do Data Mining sobre textos
noestruturados.
A Figura 1 apresenta as etapas mais comuns de um processo de descoberta de
conhecimento em banco de dados.
Figura 1 - Etapas do processo KDD
Interpretao/Avaliao
Minerao de Dados
Transformao
Pr-processamento

Conhecimento

Seleo

Base de
Dados

Data set

Dado
Dado
Transformado
Pr-processado

Padres

Fonte: Gonalves(2006).

Descobrindo o conhecimento

118

Aps verificar se as etapas do processo KDD na Figura 1, a seo a seguir apresenta


as etapas do processo de Descoberta de Conhecimento em Texto, de modo que se
pode ter uma viso comparativa entre os dois processos.

Etapas do processo de Descoberta de Conhecimento


em Texto
Como j foi afirmado anteriormente, o processo KDT se assemelha e muito ao
processo KDD. A Figura 2 apresenta as etapas desse processo.
Figura 2 - Etapas do processo KDT
Interpretao/Avaliao
Minerao de Textos
Extrao de
Informao

Pr-processamento

Conhecimento

Padres

Texto

Data set

Dado
Pr-processado

Fonte: Gonalves(2006).

Para explicar melhor o processo KDT Ceci et al(2010) p. 3676, apresenta o


seguinte pargrafo:
Dados os objetivos que se deseja alcanar com o processo, o primeiro passo
eleger o conjunto de textos que ser utilizado. A partir desse conjunto
de documentos, iniciase o processo de prprocessamento dos dados.
O propsito do prprocessamento eliminao de rudos, termos no
relevantes(stopwords), reduo das palavras aos seus radicais(stemming),
correes ortogrficas e outros aspectos morfolgicos e tambm sintticos
que as expresses textuais possuem. Aps o prprocessamento, a etapa
de transformao do texto iniciada. Nessa etapa, ocorre a normalizao
do texto e sua transformao e representao no formato de vetor,
tabela, matrizes, etc. As prximas etapas so a seleo e a projeo dos
dados, em que h uma reduo da dimensionalidade do modelo criado
no passo anterior, e a escolha das palavras relevantes. Os textos tm
a caracterstica de possurem alta dimensionalidade, visto que cada
palavra pode ser uma dimenso do vetor ou matriz. Portanto, reduzir a
dimensionalidade importante para que o resultado seja encontrado
com maior eficincia e desempenho. Dado o modelo estabelecido,
astcnicas de KDT podem ser usadas no passo seguinte, com a escolha
do algoritmo. Conforme o objetivo do problema, existem muitos mtodos
de descoberta de padres em textos, com aprendizado supervisionado
e no supervisionado, analogamente aos mtodos de descoberta em
banco de dados. Por fim, o ltimo passo do processo KDT constitui a
interpretao dos resultados obtidos e a obteno do conhecimento.

Ps-graduao

119

A etapa de minerao de texto apresentada na Figura 2 utilizase de tcnicas de


agrupamento, classificao, sumarizao de documentos, regras de associao e
anlise de ligaes. Podem ser utilizadas tambm tcnicas da minerao de dados
tradicional, fazendo as devidas modificaes. Gonalves(2006) apresenta uma
tabela demonstrando as principais funes, algoritmos e exemplos de aplicaes
disponveis na minerao de dados tradicional.
Tabela 1 - Funes e algoritmos da minerao de dados
Funes

Algoritmos

Aplicaes

Associao

Estatstica, teoria dos conjuntos.

Anlise de mercado.

Classificao

rvores de deciso, redes


neurais, algoritmos genticos.

Controle de qualidade,
avaliao de riscos.

Agrupamento

Redes neurais, estatstica.

Segmentao de mercado.

Modelagem

Regresso linear e no
linear, redes neurais.

Ranking de clientes, controle de


processos, modelo de preos.

Previso de sries
temporais

Estatstica, redes neurais.

Previso de vendas,
controle de inventrio.

Padres sequenciais

Estatstica, teoria dos conjuntos.

Anlise de mercado
sobre o tempo.

Fonte: Gonalves(2006).

Segundo Gonalves(2006), a escolha de uma ou outra tcnica apresentada na


tabela 1 depende essencialmente do negcio, da aplicao e da quantidade e
qualidade dos dados em questo.

Uso de minerao de texto


A minerao de texto pode ser utilizada para auxiliar a organizao em vrias
situaes, Turban(2009) apresenta algumas:
Encontrar o contedo implcito dos documentos, adicionando
relaesadicionais;
Relacionar documentos que possuam contedos similares;
Descobrir entidades que possam fazer sentido no modelo relacional;
Recuperar documentos completos a partir de buscas.
Para viabilizar as situaes apresentadas acima necessrio que os documentos no
estruturados sejam antes de qualquer coisa convertidos para uma estrutura que seja
fcil de processar, podese fazer uma analogia da converso dos dados presentes

Descobrindo o conhecimento

120

nas bases operacionais de uma organizao para os repositrios do tipo data


warehouse, com o intudo de facilitar a anlise na minerao de dados tradicional.
Os dados contidos nos documentos da organizao so transformados para
oschamados ndices textuais, que so apresentados com mais detalhes na
prxima seo.

Indexao
O processo de indexao fundamental para a minerao de texto, pois organiza
os dados presentes no texto de uma forma que seja facilmente recuperado. Por
conta disso, a indexao uma das tarefas mais importantes para a recuperao
de informao(CECI, 2010).
Segundo Ebecken, Lopes e Costa(2003), a indexao tem como funo permitir
que se efetue uma busca em texto sem a necessidade de varrer o documento
inteiro, similarmente ao que acontece com o processo homnimo utilizado
convencionalmente em bancos de dados. Os autores classificam a indexao em
quatro tipos distintos, a saber:
indexao de texto completo;
indexao temtica;
indexao semntica latente;
indexao por tags.
A indexao para Wives(2002) consiste na identificao de caractersticas
para um dado documento, o que proporciona a construo de uma estrutura
chamada ndice. O objetivo do ndice selecionar os documentos de maior
relevncia, filtrandoos entre os irrelevantes. Essa estruturao descrita aqui
pode ser realizada de forma manual normalmente utilizada pela rea de
biblioteconomiaou por um processo automatizado, relacionado com a rea de
computao, qual esse trabalho est intrinsecamente ligado.
Segundo Igarashi(2005), o ndice possui uma estrutura composta dos seguintes
termos:
DocCnt: identifica em quantos documentos o termo est contido;
FreqCnt: identifica a frequncia total do termo em relao a todos
osdocumentos;
Freq: nmero de vezes em que o termo se encontra no documento;
Posio termo: identifica a posio do termo no documento.

Ps-graduao

121

Uma das tcnicas mais utilizadas a baseada em ndice invertido, de acordo com
BaezaYates e RibeiroNeto(1999 apud AIRES, 2005). A Tcnica de Arquivo(ou
ndice) Invertido trabalha com uma lista de palavraschave ordenadas, onde cada
palavra est ligada ao documento que a possui. Esse documento associado
a uma lista invertida de palavraschave, que passa a ser ordenada por ordem
alfabtica. Essas palavraschave possuem um peso. Aps o processamento, alista
fica dividida em dois arquivos, um de vocabulrio e outro de endereamento.
AFigura 3 apresenta um exemplo de um ndice invertido:
Figura 3 - Exemplo de ndice invertido
Apontadores

Dicionrio

Term

Doc #

Freq

Term

N docs

Tot freq

Doc #

Freq

aid

aid

all

all

and

come

the

their

Fonte. Elaborao do autor.

Aps a indexao dos documentos so aplicados algoritmos de inteligncia


artificial para extrair os padres e possibilitar as anlises, de modo a explicitar as
informaes latentes do corpus de documentos.
O processo de indexao faz parte da etapa marcada como Extrao de
informao, apresentada na Figura 2. Na prxima seo so mencionados alguns
tratamentos que podem ser utilizados na etapa de extrao de informao
eprprocessamento.

Prprocessamento
Esta etapa no possui um nico algoritmo ou tcnica disponvel, na verdade,
existem algumas operaes que podem ser feitas dependendo diretamente do
contexto e da anlise pretendida.
Quando a semntica no importante, ou seja, no ser feita nenhuma
anlise baseada em processamento de linguagem natural, como por exemplo,
umaaplicao focada em busca completa a documentos textuais(recuperao de
informao), utilizase:

Descobrindo o conhecimento

122

Stemmer: os algoritmos de stemming tratam isoladamente todas


as palavras do texto, sempre tentando trabalhar com a sua possvel
palavraraiz. Eles no se apegam ao contexto da palavra, pois os ganhos
obtidos em preciso no justificam a grande quantidade de erros
decorridos de uma anlise de sentido equivocado(AIRES, 2005).
Retirada de stopwords: as palavras consideradas como stopwords
contidas em um documento trazem consigo duas influncias para osSRI.
A primeira delas o fato de influenciarem no grau de frequncia das
palavras do documento, pois elas ocorrem vrias vezes; j a segunda,
o processamento desnecessrio proveniente dessas palavras que no
auxiliam na busca do usurio(KORFHAGE, 1997).
Essas tcnicas tambm podem ser utilizadas na etapa de extrao de
informaoantes da indexao dos documentos, na base do foco da aplicao,
ouseja, abusca.
Na etapa de prprocessamento tambm utilizamse mtodos estatsticos para
levantar mais informaes para auxiliar a minerao e anlise das informaes
contidas nos documentos, como por exemplo:
Calculo de coocorrncia: esse tipo de clculo pode levantar informaes
sobre quantas vezes duas palavras aparecem prximas em uma frase;
Calculo de correlao: identificao de relao direta ou indireta de dois
elementos, a partir da anlise dos textos;
Agrupamento: montar grupos de documentos agrupados pelo
seucontedo.
Todas as tcnicas apresentadas nessa seo tm como foco levantar informaes
e preparar os dados para facilitar a descoberta de conhecimento a partir dos
documentos da organizao. Na prxima seo so apresentados alguns
exemplos de tcnicas de minerao para descoberta de conhecimento.

Minerao de texto
Como j foi afirmado anteriormente, as tcnicas de minerao de texto so
baseadas em mtodos estatsticos e algoritmos da rea de inteligncia artificial.
Nessa etapa, que de fato descoberto novos conceitos e relacionamentos.
Podese reparar que no existe uma nica forma para trabalhar com minerao
de dados e texto, esse tipo de soluo diretamente dependente do contexto do
problema que se deseja resolver, ou do tipo de informao que pretende extrair.

Ps-graduao

123

Para exemplificar uma situao vamos imaginar que uma organizao pretende
desenvolver um mapa de conhecimento baseado nos principais termos que a
representam, para isso podese obter tais termos a partir da frequncia que eles
ocorrem nos documentos relevantes para o contexto organizacional. Alguns
problemas que so encontrados inicialmente.
Problema 1: quantidade de documentos para serem analisados. Como j foi
apresentado, o processo de indexao minimiza esse problema, mantendo todo o
contedo dos documentos estruturados, de modo que seja fcil recuperar tanto
os documentos quanto a anlise do seu contedo.
Problema 2: identificao do limite(fronteiras) das palavras. Ou seja, como
identificar uma palavra composta, por exemplo, comUnisul Virtual, no meio de
um texto que nada mais que um conjunto de palavras?
Para resolver esse problema, podese utilizar uma tcnica chamada de
Reconhecimento de Entidades Nomeadas(NER Named Entity Recognition).
Essatcnica tem como objetivo encontrar as fronteiras de um termo no texto
e se disponvel uma base de conhecimento, tambm classificar este termo, como
por exemplo, podese reconhecer o termo Unisul Virtual e apresentlo como
uma organizao.
Problema 3: como relacionar os termos encontrados para formar o mapa? Paraisso
podese utilizar a tcnica apresentada anteriormente, ou seja, o clculo de
coocorrncia, que ir pegar os termos reconhecidos pela tcnica de NER, voltar
no ndice gerado e identificar as relaes dos termos.
importante destacar que as tcnicas utilizadas podem compor etapas
diferentes em situaes diferentes, como por exemplo, a utilizao da tcnica de
reconhecimento de entidades na etapa de prprocessamento para j levantar esses
termos anteriormente e utilizlos para anotar os documentos semanticamente.
Para ilustrar a ltima etapa do processo KDT Interpretao/avaliao,
apresentado o estudo de caso do trabalho de Ceci et al(2010).

Descobrindo o conhecimento

124

Interpretao / avaliao do conhecimento


O estudo de caso apresentado no artigo Towards a SemiAutomatic Approach
for Ontology Maintenance, de Ceci et al(2010), traz o resumo do currculo lattes
de quatro pesquisadores. Os autores os utilizaram como dados de entrada para
a descoberta de conhecimento em bases textuais. A Plataforma Lattes a base
de dados de currculos, instituies e grupos de pesquisa das reas de Cincia e
Tecnologia, mantidos pelo CNPq.
Pelo fato do tamanho do texto no ser muito grande, no foi necessrio construir
um ndice textual, fazendo o levantamento dos termos em memria e numa
estrutura prpria do modelo proposto pelos autores. O texto a seguir foi o
utilizado na pesquisa:
Flvio Ceci concluiu a graduao em Cincia da Computao pela Universidade
do Sul de Santa Catarina em 2007. Flvio mestrando do curso de Engenharia e
Gesto do Conhecimento pela Universidade Federal de Santa Catarina. Atualmente,
Desenvolvedor do Instituto Stela. Possui 6 softwares e outro item de produo
tcnica. Entre 2004 e 2007 participou de 4 projetos de pesquisa. Atualmente,
participa de 3 projetos de pesquisa. Flvio atua na rea de Cincia da Computao,
com nfase em Sistemas de Informao, atuando, principalmente, nos seguintes
temas: reconhecimento de entidades; tcnicas de inteligncia artificial aplicada
engenharia do conhecimento; populao de ontologias; descoberta de conhecimento
em bases textuais e recuperao de informao. Em suas atividades profissionais
interagiu com 13 colaboradores, em coautorias de trabalhos cientficos.
Alexandre Leopoldo Gonalves possui Bachareladol em Cincias da Computao
pela Fundao Universidade Regional de Blumenau(1997), mestrado em Engenharia
de Produo pela Universidade Federal de Santa Catarina(2000) e doutorado
em Engenharia de Produo pela Universidade Federal de Santa Catarina(2006).
Atualmente, colaborador e lder da Unidade de Produto do Instituto Stela.
Alexandre tem experincia na rea de Cincia da Computao, com nfase em
Engenharia do Conhecimento, atuando, principalmente, nos seguintes temas:
extrao e recuperao de informao, minerao de textos e extrao e engenharia
do conhecimento. Possui trabalhos publicados em peridicos especializados e em
eventos nacionais e internacionais, em diversos pases, assim como softwares com
e sem registro. Desde 2001 participa tanto na atuao quanto na coordenao de
projetos de pesquisa no Brasil e no exterior.

Ps-graduao

125

Denilson Sell concluiu o doutorado em Engenharia de Produo pela Universidade


Federal de Santa Catarina, em 2007. Atualmente, Professor da Universidade
Federal de Santa Catarina, Analista de Sistemas do Instituto Stela e Professor
da Universidade do Estado de Santa Catarina. Publicou 1 artigo em peridico
especializado e 16 trabalhos em anais de eventos. Possui 16 softwares , sendo
1com registro e outros 11 itens de produo tcnica. Participou de 3 eventos no
exterior e 6 no Brasil. Denilson coorientou 5 dissertaes de mestrado, alm de ter
orientado 2 trabalhos de concluso de curso nas reas de Cincia da Computao e
Administrao. Recebeu 2 prmios e/ou homenagens. Entre 1997 e 2005 participou de
11 projetos de pesquisa. Atualmente, participa de 5 projetos de pesquisa, sendo que
coordena 2 deles. Atua na rea de Cincia da Computao, com nfase em Sistemas
de Informao. Em suas atividades profissionais interagiu com 55 colaboradores,
emcoautorias de trabalhos cientficos.
Dhiogo Cardoso da Silva possui graduao em Bacharelado em Sistemas de
Informao pela Universidade Federal de Santa Catarina(2007). No momento,
mestrando de Engenharia do Conhecimento da Universidade Federal de Santa
Catarina. Atualmente Dhiogo colaborador do Instituto Stela. Dhiogo tem
experincia na rea de Cincia da Computao, com nfase em Sistemas de
Informao, atuando, principalmente, nos seguintes temas: Business Intelligence,
Web Semntica, Data Warehousing e Text Mining.
Os autores submeteram o texto apresentado a uma tcnica de reconhecimento
de entidades nomeadas que utilizava como base de conhecimento alguns termos
retirados das palavraschaves dos currculos, bem como uma lista de reas de
conhecimento e instituies.
A partir dos termos reconhecidos, foi aplicado um clculo de correlao que
identificou as ligaes e o peso delas entre os termos em questo. Por fim, o
resultado foi apresentado na forma de uma rvore hiperblica para facilitar a
anlise das informaes descobertas.
A Figura 4 apresenta uma dessas rvores hiperblicas geradas a partir do estudo
de caso:

Descobrindo o conhecimento

126

Figura 4 - rvore hiperblica que representa a relao entre as entidades


reconhecidas

Fonte: Ceci et al(2010).

Na Figura 4 facilmente identificada uma srie de termos que representam o


contexto dos resumes, instituies como: universidade federal de santa catarina
e universidade do estado de santa catarina esto presentes.
Tambm so apresentados alguns termos que a aplicao identificou como
importantes, mas no conseguiu classificlos, como por exemplo: minerao de
texto e engenharia do conhecimento.
Agora a descoberta mais significativa que est disponvel para a anlise
do especialista a relao indireta entre os pesquisadores alexandre e
denilson, em nenhum momento no currculo deles apresentada uma relao
direta entre os dois, mas por meio da anlise da figura fcil verificar que os
dois pesquisadores esto ligados pelas reas de conhecimento: cincia da
computao(curso de graduao dos dois) e engenharia de produco(que foi
o programa de psgraduao que ambos fizeram o mestrado e doutorado).
Os dois pesquisadores tambm esto relacionados pelas organizaes:
Universidade Federal de Santa Catarina(os dois fizeram a psgraduao nesta
instituio) e pelo instituto stela(instituto de pesquisa que ambos trabalhavam
na poca da pesquisa).
Podese verificar todo o poder do uso da descoberta de conhecimento em texto
para as organizaes, tanto essa abordagem quanto a minerao de dados
representa uma importante evoluo para os sistemas de apoio deciso, passando
a no lidar apenas com dados e informaes, mas tambm com conhecimento.
Ps-graduao

127

Referncias
AIRES, Rachel Virgnia Xavier. Uso de marcadores estilsticos para a busca na Web em
portugus. 2005. 202 f. Tese(Doutorado) Programa de Ps Graduao em Cincias da
Computao e Matemtica Computacional Instituto de Cincias e Matemticas e de
ComputaoICMC, Universidade de So PauloUSP, So Carlos(SP).
BOVO, Alessandro Botelho. Um modelo de descoberta de conhecimento inerente
evoluo temporal dos relacionamentos entre elementos textuais. 2011. 127(Doutorado).
Programa de PsGraduao em Engenharia e Gesto do Conhecimento, UFSC,
Florianpolis(SC).
CECI, Flavio. Um modelo semiautomtico para a construo e manuteno de ontologias
a partir de bases de documentos no estruturados. 2010. 131(Mestrado). Programa de
PsGraduao em Engenharia e Gesto do Conhecimento, UFSC, Florianpolis(SC).
CECI, Flavio; SILVA, Dhiogo C.; SELL, Denilson; GONALVES, Alexandre L. Towards a
SemiAutomatic Approach for Ontology Maintenance. 7 CONTECSI International
Conference on Information Systems and Technology Management. USP, So Paulo, 2010.
EBECKEN, Nelson F. F.; LOPES, Maria Celia S.; COSTA, Myrian C. A. Minerao de texto.
In: REZENDE, Solange O.(Coord.). Sistemas inteligentes: fundamentos e aplicaes. So
Paulo: Manole, 2005.
FELDMAN, R.; HIRSH, H. Exploiting Background information in Knowledge discovery
from text. Journal of Intelligent Information System, 1997.
GONALVES, A. L. Um modelo de descoberta de conhecimento baseado na correlao de
elementos textuais e expanso vetorial aplicado engenharia e gesto do conhecimento.
2006. 196(Doutorado). Programa de PsGraduao em Engenharia de Produo, UFSC,
Florianpolis(SC).
IGARASHI, Wagner. Construo automtica de vocabulrios temticos e
clculo de aderncia curricular: uma aplicao aos fundos setoriais. 2005. 95 f.
Dissertao(Mestrado) Programa de PsGraduao em Engenharia de Produo e
Sistemas, Universidade Federal de Santa Catarina, Florianpolis(SC).
KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer
Publishing, 1997.
TURBAN, Efraim et al. Business Intelligence Um enfoque gerencial para a inteligncia do
negcio. Editora Bookman, Porto Alegre, 2009.
WIVES, Leandro Krug. Tecnologia de descoberta de conhecimento em textos aplicados
inteligncia competitiva. Monografia apresentada ao Exame de Qualificao do Programa
de PsGraduao em Computao, Universidade Federal do Rio Grande do Sul, Porto
Alegre, 2002.

Descobrindo o conhecimento

128

Atividades de Autoaprendizagem
1) Levando em considerao o contedo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:
a. ( ) A minerao de dados responsvel pela modelagem do conhecimento
daorganizao.
b. ( ) As tcnicas utilizadas no processo KDD so completamente diferentes das
utilizada no processo KDT.
c. ( ) Reconhecimento de entidades nomeadas pode ser utilizada para facilitar o
processo KDT.
d. ( ) Os Data Warehouse so uma alternativa ao processo KDD, no tendo
nenhuma relao.
e. ( ) A minerao de dados e texto vivel pela utilizao de algoritmos, com
base estatstica e de inteligncia artificial.
f. ( ) Os processos KDT e KDD utilizam como fonte solues do tipo DW.

Atividade colaborativa
Nesta unidade, foram estudados conceitos de descoberta de conhecimento em
bases de dados e em texto, sabendo que muito do conhecimento organizacional
est disponvel em documentos no estruturados. Responda pergunta a seguir
utilizando a ferramenta Frum, no se esquea de comentar as respostas dos
seuscolegas.
As redes sociais so hoje um dos principais canais de comunicao das
organizaes com o seu cliente final. Dessa forma, possvel utilizar a descoberta
de conhecimento em texto a fim de extrair informaes para contribuir com a
base de conhecimento da organizao e auxiliar no processo decisrio?

Ps-graduao

129

Sntese
Nesta unidade, so estudados os processos de descoberta de conhecimento,
tanto utilizando como base repositrios DW quanto por meio da anlise dos
seusdocumentos.
O processo KDT funciona igual ao processo KDD, so conjuntos de tcnicas para
se obter conhecimento de uma determinada base de dados. O KDD utiliza bases
j estruturadas para descobrir informaes e o KDT usa textos, normalmente em
Linguagem Natural, tambm para descobrir informaes. No caso, os mtodos mais
utilizados so a Extrao de informao e o Processamento de Linguagem Natural.

Saiba Mais
Dborah Oliveira, da Computerworld, apresenta um artigo com o seguinte ttulo:
Data mining comea a conquistar espao na estratgia empresarial, leitura
bastante recomendada:
http://cio.uol.com.br/gestao/2012/03/19/data-mining-comeca-a-conquistar-espaco-naestrategia-empresarial/

Descobrindo o conhecimento

Unidade 5

Processo OLAP

Objetivos de Aprendizagem
Identificar o processo OLAP, bem como as suas caractersticas.
Examinar as funcionalidades exploratrias do processamento OLAP.
Entender qual a sua participao numa arquitetura de BI.

Introduo
As solues de Business Intelligence so compostas por uma srie de componentes
tecnolgicos que possibilitam um ambiente propcio tomada de deciso. Essas
solues podem combinar os componentes para cada situao, para a camada de
apresentao dos dados e das informaes utilizamse as solues OLAP.
As solues OLAP apresentam uma alternativa para a publicao dos dados
e informaes vindas dos modelos dimensionais. A apresentao dessas
informaes pode ser de maneira tabular ou grfica, tanto dos dados histricos
armazenados nos repositrios data warehouse, bem como os dados reais para
auxiliar o processo decisrio.

132

O que processo OLAP?


Flvio Ceci

Uma arquitetura de Business Intelligence composta por vrios componentes,


quepodem ser combinados para se obter a melhor soluo ao problema em
questo da organizao.
Aps finalizar a concepo dos repositrios de dados, o prximo passo
identificar qual a melhor abordagem para consumir os dados e apresentar as
informaes e conhecimentos descobertos.
Normalmente, podese utilizar duas abordagens diferentes para a etapa de consumo
e processamento, transformando os dados em informaes e conhecimento para,
posteriormente, o seu processamento. Veja quais so as abordagens:
Minerao de dados: tcnicas e ferramentas com base estatstica ou
de inteligncia artificial, as quais possuem como funo explicitar os
conhecimentos implcitos, seja nos repositrios ou nos seus documentos.
Sistemas OLAP: sigla para a expresso processamento analtico
online(em ingls, On line Analytical Processing). Esses sistemas
se referem a uma grande quantidade de atividades normalmente
executadas por usurios finais no ambiente online. Inclui como suas
atividades a gerao e a resposta de consultas, solicitaes de relatrios
e grficos ad hoc e a execuo deles(TURBAN et al, 2009).
Podese verificar que as solues de visualizao de informao e conhecimento
podem utilizar as prticas da minerao de dados, bem como as dos sistemas
OLAP, mas qual a relao entre essas duas abordagens?
A distino entre OLAP e minerao de dados vai alm das distines entre dados
de resumo e detalhes. As funes ou algoritmos normalmente encontrados
em ferramentas OLAP so funes de modelagem descritiva, no caso da
minerao de dados, so funes de descoberta de padro e modelagem
explicativa(THOMSEN, 2002).
Thomsen(2002) apresenta os algoritmos utilizados pelos sistemas OLAP e pelos
baseados em minerao de dados:
Funes e algoritmos utilizados pelos sistemas OLAP:
agregao;
alocaes;
razes;

Ps-graduao

133

produtos;
entre outros.
Funes e algoritmos utilizados na minerao de dados:
regresses;
redes neurais;
rvores de deciso;
clustering.
Sobre o conceito de OLAP, Gouveia et al(2011) afirmam que uma soluo
desenvolvida para a recuperao das informaeschave, com o intuito de
proporcionar facilidade e flexibilidade para a anlise de dados da organizao
como um todo, permitindo uma melhor tomada de deciso pela camada gerencial.
Para Vinci e Narciso(2006), a multidimensionalidade uma caracterstica que faz
parte desse conceito, isso quer dizer que se pode ver uma anlise em diferentes
graus de detalhamento, chegando at no nvel atmico, que foi modelado o
repositrio de origem dos dados.
Segundo Thomsen(2002), podese falar em conceitos de OLAP(mltiplas
dimenses hierrquicas que podem ser utilizadas em vrias escalas), linguagens
OLAP(Data Definition LanguageDDL, Data Manipulation LanguageDML,
DataRepresentation LanguageDRL e seus analisadores e compiladores), camadas
de produto OLAP(geralmente residem sobre os bancos de dados relacionais e
geram SQL como sada) e produtos OLAP completos.

Tipos de arquiteturas OLAP


Existem vrias abordagens para os processos OLAP. Turban et al(2009) apresentam
a descrio dos principais deles:
MOLAP: ou OLAP multidimensional implementado por um banco
de dados multidimensional especializado, os dados so organizados
em estruturas de cubos em que os usurios podem girlo de modo a
visualizar vrias fases dos dados. Podese caracterizar como possuindo
consultas rpidas devido s informaes j terem sido consolidadas.
ROLAP: utiliza como base um banco de dados com modelo relacional.
Cria vises multidimensionais dinmicas, mas pelo fato de no serem
prprocessadas utilizamse de consultas complexas e com tempo de
resposta bastante significativo;
WOLAP: tambm conhecido com Web OLAP, referese aos dados OLAP
acessveis de um navegador web.

Processo OLAP

134

Segundo Gouveia et al(2011), as solues do tipo OLAP surgiram na dcada de


60 e continuam evoluindo at os dias de hoje. No seu trabalho, so apresentadas
duas outras arquiteturas:
HOLAP:(Hybrid On line Analysis Processing) surgiu na dcada de 90 e utiliza
como base os dois conceitos de ROLAP e MOLAP, caracterizado por unir
o alto desempenho da arquitetura MOLAP com a alta escalabilidade da
arquitetura ROLAP, bastante utilizada at os dias de hoje.
DOLAP:(Desktop On line Analysis Processing) reconhecida pela sua
capacidade de diminuir o trfego na rede, isso ocorre pelo fato de todo o
processamento de dados do cubo multidimensional ser feito na prpria
mquina, tirando, assim, o processamento pesado do lado do servidor.
Os autores Gouveia et al(2011) ainda completam sobre as arquiteturas, que mesmo
com o surgimento de todas as arquiteturas mencionadas a principal caracterstica
que est presente em todas as abordagens o cubo multidimensional, capaz de
filtrar os dados por diversas formas e modos customizados pelo usurio. A Figura 1
apresenta uma representao para o cubo multidimensional.
Figura 1-Cubo multidimensional

Fonte: Gouveia et al(2011).

Para entender os conceitos por trs do cubo multidimensional, podese fazer uma
analogia com o brinquedo cubo mgico ou cubo de Rubik). Nesse brinquedo, a
pessoa deve mover as fases do cubo e chegar at a situao em que todas as fases
fiquem com a mesma cor. A Figura 2 apresenta este brinquedo.

Ps-graduao

135

Figura 2 - Cubo de Rubik

Fonte: Cincia Hoje, 2010.

Da mesma forma que quem manipula o brinquedo movendo uma das fases
tem uma nova viso sobre o mesmo brinquedo, no cubo dimensional, ao mover
uma das dimenses do cubo gerase uma nova viso sobre os mesmos dados
do repositrio. Essa interao entre as dimenses possibilita uma anlise muito
maior e chega a informaes antes no conhecidas. Cada dimenso que o cubo
possui pode ser uma tabela de dimenso de um modelo dimensional como o
apresentado na Figura 3.
Figura 3 - Representao de um modelo dimensional

Fonte: Elaborao do autor(2012).

Com o modelo dimensional fica bastante fcil relacionar as dimenses com as


fases do cubo, mas no precisaria necessariamente ser uma base modelada
nesta abordagem, poderia se ter uma base relacional normal, que mesmo assim
teramos um cubo multidimensional, a diferena que se teria um processamento
a mais para organizar e consolidar as informaes antes de apresentar em forma
de cubo(ROLAP).

Processo OLAP

136

Requisitos de uma soluo OLAP


Para se ter um soluo OLAP, Thomsen(2002) pensou numa srie de requisitos
que so apresentados a seguir, a fim de se ter uma soluo eficiente:
Utilizao de uma estrutura dimensional para garantir uma alta
performance e anlise dos dados;
Especificao eficaz de dimenses e clculos: agregar dos valores e
permitir a utilizao de ferramentas analticas sobre esses valores. Essas
anlises devem ser compostas por frmulas que devem ser utilizadas
para: agregar, alocar, comparar, analisar, explicar e deduzir;
Flexibilizao: possibilitar as visualizaes das informaes de vrias
maneiras, sejam elas grficas, matrizes ou diagramas. O usurio pode
selecionar como a informao mapeada para o formato de visualizao;
Separao de estrutura e representao: permite que os modos de
exibio sejam reorganizados por um usurio final sem a necessidade
de modificao dos dados. A falta de separao entre estrutura e
representao um problema enfrentado pelas planilhas eletrnicas.
O trabalho de Castro, Gonalves e Cazarini(2004) apresenta outros requisitos
fsicos para uma soluo OLAP, como:
Acesso rpido informao: mesmo com o recurso de aumento de
nvel de detalhes em consultas(drilldown), so necessrias grandes
quantidades de dados e um clculo desses. Esperase que mesmo com
esse recurso, o tempo no possa exceder 5 segundos;
No necessrio possuir suporte a multiusurios, mas esse requisito esta
cada vez mais presente entre as organizaes que adotam esta tecnologia.
Segundo Anzanello(2002), alm dos requisitos j preestabelecidos, os usurios
possuem requisitos particulares que devem ser atendidos no projeto OLAP, como
por exemplo, a necessidade de integrao de dados de plataformas diferentes,
questes de conectividade, entre outras.
Os requisitos aqui apresentados esto diretamente ligados a questes
arquiteturais e da soluo OLAP como um todo. A seguir so apresentados os
requisitos de uma ferramenta OLAP.

Ps-graduao

137

Requisitos de uma ferramenta OLAP


Muitas so as ferramentas disponveis no mercado para solues OLAP, no
trabalho de Anzanello(2002), foram levantados alguns requisitos comuns a essas
ferramentas, a seguir so apresentados:
Consultas adhoc: geradas pelo usurio final, conforme a sua necessidade
de relacionar e cruzar informaes de uma forma no prevista
anteriormente, mas que facilite a descoberta do que procuram;
Slice and Dice: permite a alterao da perspectiva de viso, possibilitando
a modificao da posio de uma informao, trocas de linha por coluna,
de maneira a tornar mais fcil a anlise por parte do usurio e girar o
cubo sempre que necessrio;
Drill down/up: permite explorar em diferentes nveis de detalhes da
informao. Com drill down podese visualizar as informaes de maneira
resumida, at a forma mais detalhada, como por exemplo, ver as
informaes agrupadas por ano, ms, semana, dia at chegar no nvel de
operao(caso essa seja a unidade atmica de agrupamento).
Os requisitos apresentados anteriormente so muito importantes para garantir a
efetividade das ferramentas OLAP.

Concluindo
De maneira geral, podese verificar que as solues OLAP possuem uma grande
importncia para a tomada de deciso, elas podem ser utilizadas de maneira
isolada numa arquitetura de Business Intelligence, ou combinadas com tcnicas de
minerao de dados e texto.
As ferramentas OLAP geram relatrios analticos em tempo de execuo, ou
seja, a partir do cruzamento de informaes podemse gerar vrios relatrios
dinmicos, permitindo uma visualizao mais detalhada ou mais resumida, a partir
das interaes com o cubo multidimensional resultante.

Processo OLAP

138

Referncias
ANZANELLO, C. A. OLAP Conceitos e Utilizao. Universidade Federal do Rio Grande do
Sul(UFRGS), 2002.
CASTRO, Sergio A.; GONALVES, Pablo R.; CAZARINI, Edson W. O uso do OLAP na
estratgia de vendas em uma indstria de calados alavancando a gesto de cadeia de
suprimentos. XXIV Encontro Nacional de Engenharia de Produo, Florianpolis, 2004.
GOUVEIA, Henrique C. et al. Aplicao da ferramenta OLAP em diferentes mdulos de
um sistema ERP melhorando a tomada de deciso. Revista Eletrnica de Sistemas de
Informao e Gesto Tecnolgica. Vol. 01, n. 01, 2011.
THOMSEN, Erik. OLAP Solutions: building multidimensional information systems. 2ndEdition.
John Wiley & Sons, Inc, 2002.
TURBAN, Efraim et al. Business IntelligenceUm enfoque gerencial para a inteligncia do
negcio. Editora Bookman, Porto Alegre, 2009.
VINCI, Wilson L.; NARCISO, Marcelo G. Integrao AccessExcel para produzir um sistema
de apoio deciso que simula um Data Warehouse e OLAP. XIII SIMPEP, Simpsio de
Engenharia de Produo, Bauru, 2006.

Ps-graduao

139

Caractersticas do processamento OLAP


Flvio Ceci

As solues de Business Intelligence tem ganhado cada vez mais espao entre as
organizaes, o motivo para tal a falta de ferramentas eficientes e focadas na
tomada de deciso.
Uma soluo de Business Intelligence(BI) composta por uma srie de
componentes e etapas que possuem arquiteturas e ferramentas particulares,
basicamente uma soluo de BI composta por um repositrio unificado de
dados, geralmente na forma de um Data Warehouse(DW); para consumir esse
dados, transformando em informao e possibilitando uma melhor anlise, dessa
forma, so utilizadas as ferramentas do tipo OLAP(On Line Analytical Processing).
Segundo Xavier e Pereira(2009), OLAP uma abordagem para fornecimento
de respostas rpidas para consultas analticas de fonte multidimensional.
ParaOliveira(2002), o processo OLAP focado na transformao de dados em
informao, a fim de dar suporte ao processo de tomada de deciso de uma
maneira amigvel e flexvel ao usurio em um tempo hbil, utilizando um conjunto
de tecnologias para acesso e anlise adhoc de dados.
O processo OLAP se diferencia do processo de transaes online(OLTP), segundo
Turban(2009), explica que o OLTP focado em processamento de transaes
repetitivas em grande quantidade e de manipulao simples, diferente do OLAP,
que envolve uma anlise de muitos itens de dados em relacionamentos complexos,
buscando padres, tendncias e excees, ou seja, focado no suporte a deciso.
No trabalho de Anzanello(2012), apresentada uma tabela comparativa entre os
requisitos funcionais e de desempenho entre aplicaes OLAP e OLTP:
Tabela 1-Comparao entre aplicaes OLAP e OLTP
Caractersticas

OLTP

OLAP

Operao Tpica

Atualizao

Anlise

Telas

Imutvel

Definida pelo usurio

Nvel de Dados

Atomizado

Altamente Sumarizado

Idade dos Dados

Presente

Histrico, atual e projetado

Recuperao

Poucos registros

Muitos registros

Orientao

Registro

Arrays

Modelagem

Processo

Assunto

Fonte: Anzanello(2012).

Processo OLAP

140

Uma informao bastante importante apresentada nessa tabela, na


modelagem adotada entre os dois tipos de aplicao. No caso de aplicaes
OLTP, a modelagem focada nos processos, ou seja, cada operao gerenciada
pela aplicao gera pelo menos uma nova linha na base de dados referente
operao. No caso das aplicaes OLAP, a modelagem focada no assunto
em questo, possuindo os dados muitas vezes agrupados e j prprocessados.
Essa abordagem adotada, pois mais indicada para a anlise dos dados,
transformandoos em informaes.
Podemse utilizar solues OLAP para vrios segmentos de organizaes, segundo
Xavier e Pereira(2009), o uso das solues OLAP geralmente relacionase aos
seguintes seguimentos:
Gerao de relatrios empresariais para vendas;
Marketing;
Gerao de relatrios de gerenciamento;
Gerenciamento de processos de negocio em ingls, Business Process
Management(BPM);
Planejamento oramentrio;
Projees.
Percebese que as solues OLAP so muito utilizadas quando se deseja fazer
anlise sobre dados organizados de maneira dimensional. Segundo Vinci e
Narciso(2006), a anlise multidimensional representa uma das maiores utilidades
da tecnologia OLAP, permitindo ver determinados cubos de dados de diferentes
ngulos e faces, e de vrios nveis de agregao.
Entendese como cubo de dados o resultado proveniente de uma consulta num
modelo dimensional por uma ferramenta OLAP. A Figura 1 foi desenvolvida por
Silve e Saias(2011) e representa exatamente este cubo:

Ps-graduao

141

Figura 1-Representao grfica de um cubo de dados

Indicador 1 = (Atributo 1, Valor 5;


Atributo 2,Valor 4;
Atributo 3, Valor 3)

Atributo 1
(1 dimenso)
5
4

Atributo 3
(3 dimenso)

3
2

1
1

Atributo 2
(2 dimenso)

Fonte: Silva e Saias(2011).

Nessa Figura 1 verificamse as vrias dimenses resultantes de uma mesma


consulta e como se organiza a visualizao desse cubo de vrias maneiras e a
granularidade dos dados em questo.
Segundo Turban(2009), os cubos de dados possibilitam obter informao para
suporte deciso de maneira eficiente, eles so utilizados para representar
dados em conjunto com alguma medida de interesse, podendo ser bidimensional,
tridimensional ou com apenas uma dimenso. justamente pela anlise de cubo
que permite os usurios realizarem consultas por meio da busca de uma srie de
visualizaes de relatrios.
Muitas das caractersticas das solues OLAP esto diretamente ligadas
utilizao dos cubos de dados e uso da multidimensionalidade. O trabalho
desenvolvido por Vinci e Narciso(2006) apresenta as principais caractersticas
dessas solues:
Slice and dice: possibilita a anlise de informaes de diversos ngulos,
permitindo que o usurio faa muitas combinaes, chegando a outras
vises e visualizando informaes de outras formas;
Consultas adhoc: permite que o usurio gere consultas nunca antes
utilizadas em tempo de execuo da aplicao, permitindo responder
os questionamentos que deseja, com vises de informaes ainda no
exploradas, alm da utilizao de mtodos que auxiliem a encontrar o
que procuram;
Drill DownUP: torna possvel a interao do usurio com vrios nveis de
agrupamento, ou seja, subir e descer dentro de uma hierarquia.

Processo OLAP

142

No livro escrito por Oliveira(2002), apresentada mais uma caracterstica, a de


gerao de consultas mais amigveis, de modo que seja feita de maneira simples,
amigvel e transparente, fazendo com que o usurio final tenha um conhecimento
mnimo em informtica para chegar at as informaes desejadas.
Todas as caractersticas apresentadas no trabalho de Vinci e Narciso(2006) so
apresentadas no trabalho de Sell(2006) como funcionalidades exploratrias.
Alm das funcionalidades j mencionadas, Sell(2006) apresenta mais algumas:
Drill Across: permite alterar o nvel de anlise dentro da dimenso em
questo, pulando um nvel intermedirio, caso necessrio, por exemplo;
a anlise alterada diretamente de ano para ms, sem precisar passar
por semestre;
Drill Through: permite que o usurio passe de uma informao contida
em uma dimenso para outra;
Drill Out: um detalhamento de uma determinada informao contida
em uma base externa, por exemplo, verificar a quantidade de vendas
em uma semana; caso se deseja saber as informaes detalhadas da
venda em questo, podese acessar uma base operacional que abriga
talinformao;
Sort: permite a ordenao das informaes, que, nesse caso, no precisa
ser necessariamente numrica;
Ranking: possibilita o agrupamento de resultados numricos por ordem
de tamanho;
Paging: paginao do resultado das consultas;
Filtering: apresentao de consultas com restries sobre atributos
oufatos;
Alerts: permite que seja enviado um sinal caso uma situao definida
anteriormente acontea;
Break: permite separar o resultado de uma anlise por grupos de
informao, possibilitando assim a subtotalizao de valores para
cadagrupo.
O autor comenta que nem todas as implementaes apresentadas na lista anterior
so comuns a todas as solues OLAP.
Sobre as caractersticas principais do processamento OLAP, o autor Sell(2006)
baseouse nos trabalhos de Codd(1995), Donald(1997) e Thomsen(2002), demodo
que o resultado da sua pesquisa apresenta 12 caractersticas, originalmente
levantadas por Codd(1995), agrupadas pela sua natureza, que, segundo o
Sell(2006) e Thomsen(2002), torna mais fcil o entendimento das mesmas.

Ps-graduao

143

Primeiramente, so apresentadas as caractersticas marcadas como bsicas, que,


segundo Sell(2006), baseandose no trabalho de Thonsen(2002) so:
Tabela 2-Caractersticas bsicas do OLAP
Caracterstica

Descrio

Manipulao de dados intuitiva

Possibilitar a ao direta sobre as clulas e os recursos


dosgrficos.

Acessibilidade

Disponibiliza uma viso lgica nica dos dados da empresa

Arquitetura Cliente/Servidor

Permite que a ferramenta OLAP rode em um cliente,


acesse dados e faa operaes em um servidor.

Transparncia

Permite inserir as funcionalidades OLAP dentro do


contexto de uma aplicao do domnio do usurio final.

Suporte para multiusurios

Possibilitar operaes simultneas de leitura e escrita.

Fonte: Sell(2006).

O segundo grupo de caractersticas chamado de caractersticas de relato. Segundo


Sell(2006), que se baseou no trabalho de Thomsen(2002), so as seguintes:
Tabela 3-Caractersticas de relato
Caracterstica

Descrio

Relato flexvel

Apresentar dimenses de um cubo por meio de


diferentes combinaes de linhas, colunas e pginas.

Desempenho coerente do relato

Preservar o desempenho da apresentao medida


que o volume de dados e dimenses aumente.

Tratamento dinmico
de matriz esparsa

A organizao fsica dos dados deve ser sensvel mudana


das caractersticas dos dados ao longo do tempo.

Fonte: Sell(2006).

O terceiro e ltimo grupo de caractersticas apresentadas por Sell(2006)


chamado de caractersticas dimensionais e so apresentadas na tabela a seguir:
Tabela 4-Caractersticas dimensionais
Caracterstica

Descrio

Viso conceitual
multidimensional

A viso conceitual do usurio analista deve possibilitar


a anlise do negcio sobre diferentes perspectivas.

Dimensionalidade genrica

Cada dimenso deve ser equivalente tanto em sua estrutura


quando nas capacidades exploratrias aplicveis.

Dimenses e nveis de
agregao limitados

A estrutura criada no servido dever possibilitar a criao


detantas dimenses e cubos quanto necessrio para se
analisar o negcio.

Operaes irrestritas de
dimenso cruzada

Permitir clculos e manipulao de dados por meio


dequalquer quantidade de dimenses e relacionamento
dedados.

Fonte: Sell(2006)

Processo OLAP

144

A Tabela 2 apresenta caractersticas bsicas e compartilhadas por todas as


ferramentas OLAP. Na Tabela 3 so apresentadas caractersticas relacionadas
operao de gerao de relatrios pelas ferramentas OLAP. As caractersticas
apresentadas na Tabela 4 so centradas nas operaes diretamente ligadas ao DW
ou modelo dimensional.

Referncias
ANZANELLO, Cynthia A. OLAP Conceitos e Utilizao. Instituto de InformticaUniversidade
Federal do Rio Grande do Sul. Porto Alegre. Disponvel em: <http://bit.ly/I0WoEb>. Acessado
em: 10 de abril de 2012.
CODD, E. F.; CODD, S. B.; SALLEY, C. T. Providing OLAP(online analytical processing) to
useranalysts: An IT mandate. 1995.
DONALD, B. High performance Oracle Data Warehousing. USA: The Coriolis Group, 1997.
OLIVEIRA, Wilson J. Data Warehouse. Visual Books, Florianopolis, 2002.
SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias
semnticas para suporte a aplicaes analticas. 2006. Tese(Doutorado)Universidade
Federal de Santa Catarina, Centro Tecnolgico. Programa de PsGraduao em
Engenharia de Produo, Florianpolis, 2006.
SILVA, Joo; SAIAS, Jos. OLAP em mbito hospitalar: transformao de dados de
enfermagem para anlise multidimensional. JIUE 2011, 2th Jornada de Informtica da
Universidade de vora, Portugal, 2011.
THOMSEN, Erik. OLAP Solutions: building multidimensional information systems. 2ndEdition.
John Wiley & Sons, Inc, 2002.
TURBAN, Efraim et al. Business IntelligenceUm enfoque gerencial para a inteligncia do
negcio. Editora Bookman, Porto Alegre, 2009.
VINCI, Wilson L.; NARCISO, Marcelo G. Integrao AccessExcel para produzir um sistema
de apoio deciso que simula um Data Warehouse e OLAP. XIII SIMPEP, Simpsio de
Engenharia de Produo, Bauru, 2006.
XAVIER, Fabrcio S. V.; PEREIRA, Leonardo Bruno R. SQL dos Conceitos s Consultas
Complexas. Editora Cincia Moderna, Rio de Janeiro, 2009.

Ps-graduao

145

Desenvolvendo um projeto OLAP


Flvio Ceci

O uso das solues OLAP combinadas a estratgias de Business Intelligence(BI)


so abordagens bastante requisitadas atualmente, tanto essas solues como
as baseadas em tcnicas de descoberta de conhecimento esto na extremidade
do usurio final. Sua funo processar os dados para gerar informaes e
transformlas em conhecimento, de modo a apoiar o processo decisrio da
camada gerencial da organizao.
Da mesma forma que existem processos para o desenvolvimento de uma
soluo de BI, ou para a modelagem e implantao de um repositrio Data
Warehouse(DW), ou ainda para a definio de um cenrio utilizando tcnicas
de descoberta de conhecimento, tambm existem etapas para o projeto e
implementao de modelos OLAP.
Nesta leitura, so apresentadas as etapas prticas para o projeto e implantao de
uma soluo OLAP, guiando para o sucesso desse projeto, a partir do livro escrito
por Thomsen(2002).

Etapas prticas para o projeto e a implementao de


modelos OLAP na viso de Thomsen(2002)
Um dos livros mais conceituados e utilizados como referncia base para as reas
relacionadas com OLAP o livro de Erik Thomsen. Segundo um dos maiores
nomes da rea W.H. Inmono, descreve da seguinte maneira: O livro de Erik
Thomsem se aprofunda onde outros livros no se aprofundaram. Em termos
de inteireza, legibilidade e fuso de teoria e prtica, recomendo este livro, com
certeza.(THONSEN, 2002, p. 4).
Esta seo no deve ser encarada como uma metodologia, mas sim como um
guia que explica as etapas prticas associadas ao projeto e implementao da
soluo OLAP, ou ainda como o prprio autor explica essas orientaes: Elas
foram escritas para o projetista e o implementador do modelo OLAP(THONSEN,
2002, p.302).
Inicialmente, devese identificar os pontos do cenrio atual onde se deseja
desenvolver e implantar a soluo OLAP, como por exemplo, se j foi investido
anteriormente no desenvolvimento de um DW e agora gostaria de trabalhar com
as informaes contidas nele, se a fonte de dados est em uma planilha eletrnica,
ou se no existe nada desenvolvido ainda.

Processo OLAP

146

Dos cenrios apresentados acima, o mais complicado o para iniciar a concepo


de uma soluo OLAP a partir do zero, ou seja, sem nenhum dos outros
componentes de uma arquitetura ou soluo de BI j criado.
O autor sugere que para identificar o ponto de partida, devese procurar o ponto
em que o projetista se sinta mais vontade e confiante sobre o que feito ou que
precisa ser feito e trabalhar a partir disso. Por exemplo, caso ele tenha domnio
sobre os dados em questo, mas no tem certeza sobre todas as finalidades para
as quais os usurios finais iro utilizlos, nesse caso, podese adotar um sequncia
de passos de baixo para cima, ou seja, dos dados para a funo.
De maneira geral, Thomsen(2002) afirma que para a concepo de um projeto
OLAP devese cumprir as seguintes etapas:
Entender o fluxo de dados atual e ideal;
Definir cubos;
Definir dimenses, membros e vnculos;
Definir nvel e/ou hierarquias de dimenso;
Definir agregao e outras formas.

Conhecendo o cenrio atual


importante lembrar que antes mesmo de iniciar de fato o projeto do modelo ou
qualquer tarefa de implantao, necessrio entender o problema e a situao
atual, Thomsen(2002, p.304) faz a seguinte afirmao:
No importa as ferramentas especficas que esto sendo usada, voc precisa
descobrir a respeito dos esquemas dos usurios e de quaisquer esquemas
relevantes aos dados de origem. Voc tambm precisa entender as regras
comerciais relevantes, como as regras sobre limites de desempenho,
acesso aos dados ou a distribuio de informaes baseada em evento.
Asregras poderiam estar codificadas ou nas mentes do pessoal chave.

A interao do projetista com a equipe de usurios finais da aplicao OLAP


fundamental para o sucesso do projeto, para isso, podese elaborar algumas
perguntas para auxiliar no entendimento da situao atual.

Ps-graduao

147

Thomsen(2002) elaborou um questionrio para se chegar at o levantamento da


situao real:
1) Com que frequncia quais tipos de usurios usam o sistema?
a. Quantos usurios existem para cada tipo(classe de usurios do sistema)?
b. Que tipo de dilogo cada tipo de usurio tem com o sistema?
c. Quantos dados cada tipo de usurio examina durante uma sesso tpica?
d. Quantos dados atravessam a rede em resposta s consultas tpicas para
cada tipo de usurio?
e. Quais so as caractersticas de informao normalmente navegadas por
cada usurio?
f. Quais tipos de ferramentas do usurio final esto sendo usadas para
navegar e analisar os dados?
g. Quantas vises distintas so necessrias por tipo de usurio final?
2) Em geral, quantos dados do entrada no sistema?
3) Quantas origens de dados distintas existem?
a. Para cada origem, qual o seu esquema?
b. Quantos dados existem?
c. Em que velocidade os vnculos so atualizados?
d. Que aspecto de integrao e refinamento forma envolvidos nos dados
deorigem?
4) Que clculos ocasionais normalmente so realizados no servidor?
5) Que clculos so prrealizados no servidor?
6) Que clculos normalmente so realizados no cliente?
7) Que mquinas, quais sistemas operacionais e configuraes de redes so usados?
A partir das respostas dadas s perguntas apresentadas anteriormente, oprojetista
deveria estar apto para preencher o chamado diagrama de origem e uso. Segundo
Thomsen(2002), este diagrama representa o que importante para origens e
usurios que utilizaro a soluo em questo. A Figura 1 apresenta um exemplo
desse diagrama.

Processo OLAP

148

Figura 1-Diagrama de origens e uso

Origens

Usurios

2 origens

2 usurios (tipos)

01 = Dados de vendas
M204
MVS
IBM

U1 = analista de marketing
Excel
Windows 95
Compaq 586

02 = dados de Marketing
Oracle 7.3
Unix
Dell

1 milho de linhas
32 colunas
Nmerico
Dirio

Dados OLAP

100.000 linhas
128 colunas
Nmerico
Semanal

30 relatrios dirios
200 relatrios semanais
100.000 navegaes semanais
25 relatrios dirios
25 relatrios dirios
500 relatrios semanais
100.000 navegaes semanais
25 relatrios dirios

U2 = Gerente regional
Forest & Trees
Approach
NT

Fonte: Thomsen(2002).

Aps entender a situao real e atual, levantamse algumas perguntas sobre


possveis problemas que os usurios esto experimentando. Esses problemas
podem ser de natureza fsica ou lgica.
Informaes sobre restries tambm so bastante importantes para o projeto,
essas restries podem ser:
o tipo de mquina;
o sistema operacional em questo;
a topologia de rede;
a dependncia de softwares de terceiros;
o nmero de usurios do sistema;
o tamanho do conjunto de dados;
os tipos de dados vlidos;
entre outros.
Da mesma forma que praticamente todas as metodologias de desenvolvimento
de software so guiadas por requisitos de usurio, nesse caso no
diferente, devese levantar a documentao dos requisitos dos usurios finais.
Essesrequisitos tambm podem ser provenientes dos sistemas transacionais
da organizao. Esse tipo de informao pode ajudar e muito no trabalho de
identificao das fontes de dados e at mesmo para saber que tipo de informao
poder ser gerada, ou ainda quais perguntas podem ser respondidas.

Ps-graduao

149

Projeto da soluo
O primeiro passo para a definio do projeto da soluo a definio do modelo
lgico, essa definio nada mais que a concepo do modelo multidimensional.
Para o desenvolvimento desse modelo podese utilizar de qualquer metodologia j
conhecida para esta etapa.
Tento em vista a utilizao de uma metodologia para auxiliar a criao do
modelo multidimensional, o autor chama a ateno para alguns pontos que so
apresentados abaixo:
Cubos e dimenses;
Refinar a quantidade de dimenses;
Verificar as dimenses que mudam com o tempo;
Quais vnculos devem existir no modelo?
Hierarquias da dimenso;
Hierarquias mltiplas;
Membros da dimenso;
O contexto da deciso;
Frmulas.
Os pontos apresentados anteriormente tm como funo auxiliar o projetista
na validao e concluso do modelo multidimensional necessrio para a
ferramenta OLAP. Aps finalizar o projeto de soluo, devese investir tempo no
levantamento de informaes sobre as agregaes e anlises mais complexas.

Agregaes e anlises mais complexas


O autor afirma que existem vrias formas de se iniciar um projeto OLAP e que
na maioria dos casos deixado para o final questes mais complexas, pois,
dependendo da situao, nem necessrio se preocupar com isso.
No geral, necessrio levar em considerao pelo menos as questes relacionadas
s agregaes bsicas. Tendo em vista esse fato, o autor apresenta questes de
descries derivadas, que aparecem em ambientes multidimensionais e podem
atrapalhar o processo analtico.

Processo OLAP

150

Dados de entrada intermediria: esse caso gira em torno de anlises que tm


dependncia com dados de entrada vindos de outras fontes(dados operacionais),
mas caso no esteja preparad, pode gerar anlises com erros para o usurio.
percebido que no existe uma metodologia formada para o desenvolvimento
de uma soluo OLAP, mas sim uma sequncia de passos para auxiliar o
desenvolvimento do seu projeto e implantao. A soluo OLAP tem dependncia
direta do modelo dimensional, por esse motivo, devese dar um foco especial
nesse modelo.

Referncias
THOMSEN, Erik. OLAP Solutions: building multidimensional information systems.
2ndEdition. John Wiley & Sons, Inc, 2002.

Ps-graduao

151

Exemplo de uma soluo OLAP


Flvio Ceci

As ferramentas OLAP tm como funo apresentar um caminho mais amigvel


para que o seu usurio final navegue pelas informaes mantidas nos seus
repositrios de dados e informaes.
Essas ferramentas geralmente possuem um ambiente em que se pode configurar
o tipo de consulta desejada, de modo que graficamente o usurio pode combinar
uma srie de dimenses na forma de linhas e colunas, alm de aplicar filtros e
paginadores.
Para facilitar a visualizao, a Figura a seguir foi retirada de um dos ambientes
do Diretrio de Conhecimento da Vigilncia Sanitria(http://dcvisa.anvisa.gov.br),
esse e os demais exemplos sero tirados desse portal.
Figura 1-Painel para elaborao das consultas OLAP

Fonte: Anvisa, 2012.

Processo OLAP

152

No caso do ambiente apresentado na Figura 1, podese utilizar recursos do tipo


draganddrop para arrastar as dimenses que se deseja alocar como linha ou
como coluna. A Figura 2 apresenta esse recurso com mais detalhes:
Figura 2 Recurso drag and drop da ferramenta OLAP

Fonte: Anvisa, 2012.

Esse tipo de ambiente traz uma srie de benefcios, j que bastante intuitivo e
permite que o seu usurio final no precise ser um especialista em computao,
bastando apenas ter um conhecimento mdio em informtica e, principalmente,
conhecer o domnio em questo.
Podese facilmente cruzar as dimenses funcionrio com estado e chegar
seguinte situao:
Figura 3-Tabela de funcionrios por estado

Fonte: Anvisa, 2012.

Esse mesmo resultado apresentado pela ferramenta pode ser facilmente


convertido em um grfico, possibilitando visualizar mais dados, como apresentado
na Figura 4:

Ps-graduao

153

Figura 4-Selecionando a opo de visualizao a partir de grfico

Fonte: Anvisa, 2012.

A Figura 5 apresenta a configurao demonstrada na Figura 4, possibilitando a


visualizao do mesmo resultado de maneira grfica.
Figura 5-Representao grfica para os dados apresentados na planilha resultante

Fonte: Anvisa, 2012.

Processo OLAP

154

A representao grfica permite eventos de clique, possibilitando que o usurio


chegue at a informao gro, a qual, muitas vezes, pode estar na forma de um
dado na base operacional.
Esse recurso tambm pode estar presente na visualizao de forma tabelar,
demodo que ao clicar no valor totalizado de uma clula, podese ver o detalhe at
chegar no gro, como ocorre com o caso da representao grfica.
Outro recurso bastante interessante de uma ferramenta OLAP a criao
de dashbords, em que o usurio pode manter alguns grficos resultantes de
consultas(cruzamento entre dimenses),sendo atualizadas em tempo real.
A Figura 6 apresenta um exemplo de um dashbord criado a partir de trs consultas:
Figura 6-Dashbord do usurio

Fonte: Anvisa, 2012.

O dashbord ilustrado na Figura 6 apresenta a viso de um usurio do sistema


em que foram construdas trs projees. O resultado foi publicado na forma
grfica, cada grfico segue o conceito de widget, em que possvel verificar as
informaes na forma tabular, ver um widget em tela cheia.

Ps-graduao

155

O conceito de dashbord permite que o usurio tenha um painel no qual se pode


acompanhar a evoluo dos dados para apoiar a deciso gerencial da organizao.
Por exemplo, podese demonstrar o grfico Produo por ano, onde projetada
a quantidade de produo distribuda por ano e, tambm so apresentadas duas
linhas em que demostra a situao ideal e a de risco.
As solues OLAP so hoje uma das solues grficas mais utilizadas e efetivas
para apresentar os dados e informaes contidos nos modelos dimensionais.
Vale lembrar que as solues OLAP apresentam os dados histricos e para
acompanhamento em tempo real da situao da organizao. A combinao
dessas solues com as tcnicas de descoberta de conhecimento possibilitam
a construo de previses a partir dos dados passados, tanto para descobrir
informaes implcitas quanto para montar simulaes para a previso de
situaes futuras.

Referncias
ANVISA. Diretrio de Conhecimento da vigilncia Sanitria. Disponvel em:
http://dcvisa.anvisa.gov.br. Acesso em: 16 jul. 2012.
THOMSEN, Erik. OLAP Solutions: building multidimensional information systems.
2ndEdition. John Wiley & Sons, Inc, 2002.

Processo OLAP

156

Atividades de Autoaprendizagem
1) Levando em considerao o contedo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:
a. ( ) Para o desenvolvimento de solues OLAP, existem vrias metodologias
que se podem seguir para obter sucesso no mesmo.
b. ( ) MOLAP, HOLAP, DOLAP so tipos de arquiteturas OLAP.
c. ( ) Podese fazer uma analogia das solues OLAP com o brinquedo cubo mgico.
d. ( ) OLAP e OLTP so siglas para o mesmo tipo de processo.
e. ( ) A minerao de dados uma tcnica utilizada para compor a base de dados
consumida pelas ferramentas OLAP.
f. ( ) ROLAP um tipo de arquitetura OLAP que utiliza como base um banco de
dados com modelo relacional.

Atividade colaborativa
Nesta unidade, voc estudou sobre as solues OLAP. Responda pergunta a
seguir utilizando a ferramenta Frum, no se esquea de comentar as respostas
dos seus colegas.
As ferramentas OLAP apresentam uma forma amigvel de navegar entre as
dimenses modeladas na base de dados, essa forma geralmente tabelar(por
meio de tabelas), voc acha que existem outras formas de navegao? Se sim,
falesobre elas e apresente quais as suas vantagens e desvantagens.

Ps-graduao

157

Sntese
Nesta unidade, so estudadas as solues OLAP, os seus conceitos, como so
montadas, quais as suas dependncias tecnolgicas e exemplos.
As solues OLAP so baseadas na disposio das informaes disponveis nos
modelos dimensionais, essas solues tm como funo auxiliar no consumo e
explicitao dos dados e informaes, de modo a apoiar a tomada de deciso,
tambm possvel acompanhar os dados em tempo real, a fim de acompanhar os
dados de entrada para apoiar o processo decisrio de maneira mais gil.

Saiba Mais
A professora Cynthia Aurora Anzanello, da Universidade Federal do Rio Grande do
Sul, escreveu um timo artigo falando sobre OLAP e suas utilizaes, vale a pena
ler este material:
http://www.fag.edu.br/professores/limanzke/Administra%E7%E3o%20de%20
Sistemas%20de%20Informa%E7%E3o/OLAP.pdf

Processo OLAP

Para concluir os estudos

Chegamos ao final deste livro sobre Business Inteligence, onde passamos pelas
principais reas que esto relacionadas com essa proposta. Inicialmente, foi
abordada uma reviso sobre o conceito de dado, informao e conhecimento,
chegando aos sistemas de informao. Nesse tpico verificouse que no existe
uma classificao nica, mas que iramos nos concentrar no tipo de sistemas de
informao chamado de sistemas de apoio deciso.
Os conceitos relacionados a Business Inteligence (BI) nasceram muito antes da
era da computao, mas nesse contexto as ferramentas de BI so representadas
como evoluo dos sistemas de apoio deciso. Dentro dessa abordagem,
utilizamse, normalmente, repositrios de dados e informao para apoiar os
processos analticos. Costumeiramente, utilizase a modelagem dimensional para
esse tipo de proposta.
Os Data Warehouse (DW) so responsveis pelo armazenamento centralizado
dos dados e informaes, de maneira dimensional e prprocessada, garantindo
uma qualidade muito maior na sua fonte de informao. Para isso, utilizamse
ferramentas ETL, as quais tm como funo a coleta de dados das bases
operacionais, proveniente dos sistemas de informao transacionais da
organizao. A partir dessa coleta, feita a transformao e limpeza dos dados e
posteriormente a carga no repositrio do tipo DW.
Para consumir e apresentar esses dados e informaes contidos nos repositrios
podese utilizar algumas abordagens. Quando se deseja descobrir conhecimento
implcito nos repositrios, podese utilizar de tcnicas de minerao de dados,
as quais podem auxiliar no reconhecimento de padres e gerar indicativos para
acontecimentos futuros.
Quando se deseja visualizar os dados e informaes histricos, podendo cruzar
vrias dimenses, de modo a chegar em novas informaes, utilizamse as
solues OLAP, que, alm de navegao pelos dados histricos, podem fazer um
acompanhamento em tempo real das operaes da organizao.

160

Podese verificar que cada vez mais os dados no estruturados esto fazendo
parte das solues de BI, o motivo para tal que muito do conhecimento
organizacional est implcito nas bases de documentos. O cruzamento e
carga dessas informaes cada vez mais comum nos repositrios e bases de
conhecimento, alm dos dados no estruturados provenientes dos documentos
da organizao. Tambm, cada vez mais esto utilizando como base os dados
publicados em mdias sociais, que representam um canal direto do cliente com as
organizaes, podendo auxiliar e muito no processo de tomada de deciso.

Ps-graduao

Minicurrculo

Flvio Ceci graduado em Cincia da Computao pela Universidade


do Sul de Santa Catarina (Unisul2007), Mestre em Engenharia do
Conhecimento pela Universidade Federal de Santa Catarina (UFSC2010)
e, atualmente, doutorando em Engenharia do Conhecimento,
tambm pela Universidade Federal de Santa Catarina.
Trabalha com desenvolvimento de softwares desde 2005 e na concepo
de sistemas de apoio deciso, desde 2007, no Instituto Stela.
Suas reas de pesquisa incluem: Recuperao de informao,
Business Intelligence, Extrao de conhecimento, Processamento
de linguagem natural e Anlise de sentimentos.

Respostas e comentrios das atividades


de autoaprendizagem e colaborativas

Unidade 1
Atividades de Autoaprendizagem
1) Gabarito: F V F F V V F F
a. ( F ) As ontologias so estruturas formais para a representao de dados.
Comentrio: As ontologias so estruturas formais para a representao
deconhecimento.
c. ( F ) O paradigma de transporte demonstrou, ao longo do tempo, sua
eficincia e utilizado at hoje na Nova Engenharia do Conhecimento.
Comentrio: A nova engenharia do conhecimento baseada no paradigma de
modelagem, devido falta de sucesso do paradigma de transporte na concepo dos
sistemas de apoio deciso.
d. ( F ) Os Sistemas de Informao possuem uma classificao muito bem definida.
Comentrio: Essa afirmao no est correta, at hoje os pesquisadores dessa
rea ainda no chegaram em um consenso sobre a classificao dos sistemas
deinformao.
g. ( F ) O subsistema de modelo da arquitetura clssica de SAD equivalente ao
Data Warehouse da arquitetura de BI.
Comentrio: os Data Warehouse so equivalentes ao subsistema de dados e no de
modelo da arquitetura clssica de um SAD.
h. ( F ) Uma organizao pode ser vista como um sistema, desde que ela faa uso
de computadores.
Comentrio: Um sistema qualquer ambiente que seja composto de trs processos
bsicos: Entrada, processamento e sada. Exemplo: sistema digestivo.

164

Atividade colaborativa
O uso de dados disponveis na Web (como por exemplo, em mdias sociais) pode
auxiliar os sistemas de apoio deciso na entrega de uma informao mais
estratgica para a organizao?
Comentrio: Atualmente, as mdias sociais representam um canal direto entre as
organizaes e seus clientes, nelas podemse encontrar informaes sobre um
produto, servio e atendimento. Cada vez mais as organizaes esto utilizando essas
informaes para montar campanhas de marketing, e at cruzar essas informaes
com as internas, para auxiliar na tomada de deciso.

Unidade 2
Atividades de Autoaprendizagem:
1) Gabarito: F F F V F V
a. ( F ) As prticas de BI s foram possveis com o advento dos computadores.
Comentrio: apresentado durante a unidade 2 que as tcnicas de BI no possuem
dependncia com sistemas computacionais, que at mesmo em tempos remotos j
existiam tcnicas de BI inseridas nas suas atividades produtivas, como por exemplo,
asociedade egpcia.
b. ( F ) DW nada mais do que um banco de dados que utiliza como modelagem
de dados a abordagem relacional.
Comentrio: Um DW utiliza como modelagem para os seus dados a modelagem
dimensional, que mais indicada para anlise de dados.
c. ( F ) ETL o processo de minerao de dados previsto pela arquitetura de BI.
Comentrio: O processo de ETL responsvel pela coleta dos dados das bases
operacionais, processamento, transformao e carga desses dados no DW.
e. ( F ) A chamada rea de apresentao onde as informaes so organizadas
ecentralizadas.
Comentrio: Essas caractersticas so dos repositrios DW.

Ps-graduao

165

Atividade colaborativa
O uso de recursos semnticos permite uma sria de possibilidades para as anlises
de informaes disponveis pelo BI, quais possibilidades so essas? Como elas
podem auxiliar na anlise das informaes?
Comentrio: O uso de recursos semnticos est cada vez mais presente na web
(web semntica) e dentro das organizaes. Os artifcios semnticos podem estar
presentes tanto no processamento das informaes, podendo classificlas levando
em considerao o contexto do dado em questo, bem como na apresentao das
informaes, sabendo qual a melhor maneira de apresentla.

Unidade 3
Atividades de Autoaprendizagem:
1) Gabarito: V F V V V F
b. ( F ) O processo de integrao dos dados algo bastante simples e rpido
deconceber.
Comentrio: Sabese que o processo de integrao de dados um dos mais custosos
e demorados.
f. ( F ) As medidas de um DW uma nomenclatura equivalente a tabelas fato.
Comentrio: As medidas representam os valores totalizados, que so colunas de uma
tabela fato.

Atividade colaborativa
Nesta unidade, foram estudados os repositrios data warehouse, tambm foi
visto que Inmon, considerado como um dos pais dessa abordagem, j trabalha
com o conceito do DW2.0. Dessa forma, faa um paralelo dessa evoluo com a
evoluo do BI, BI 2.0 e BI 3.0.
Comentrio: O chamado DW 2.0 baseado na utilizao de fontes no estruturadas,
junto modelagem dimensional. No caso do chamado BI2.0 e BI3.0 tambm
previsto que seja utilizado contedo no estruturado, utilizandose de recursos de
processamento de linguagem natural e web semntica, o no s contedo interno
para apoiar a tomada de deciso, mas tambm contedo disponvel na internet.
Business Intelligence

166

Unidade 4
Atividades de Autoaprendizagem:
1) Gabarito: F F V F V F
a. ( F ) A minerao de dados responsvel pela modelagem do conhecimento
daorganizao.
Comentrio: A minerao de dados baseada em tcnicas estatsticas e apoiadas
por algoritmos da inteligncia artificial, que tm como funo analisar e apoiar a
descoberta de conhecimento.
b. ( F ) As tcnicas utilizadas no processo KDD so completamente diferentes das
utiliz11,5ada no processo KDT.
Comentrio: O processo KDD e KDT compartilha de vrias tcnicas, diferenciando
mais da etapa de processamento dos dados e informaes de entrada (dado
estruturado ou no estruturado).
d. ( F ) Os Data Warehouse so uma alternativa ao processo KDD no tendo
nenhuma relao.
Comentrio: Os Data Warehouse so responsveis por armazenar os dados
estruturados que sero consumidos pelo processo KDD.
f. ( F ) Os processos KDT e KDD utilizam como fonte solues do tipo DW.
Comentrio: O processo KDT utiliza como base textos e dados no estruturados,
diferente do processo KDD, que utiliza como base dados estruturados geralmente
provenientes de um DW.

Atividade colaborativa
Nesta unidade, foram estudados conceitos de descoberta de conhecimento em
bases de dados e em texto, sabendo que muito do conhecimento organizacional
est disponvel em documentos no estruturados. Responda pergunta a seguir
utilizando a ferramenta Frum, no se esquea de comentar as respostas de
seus colegas.

Ps-graduao

167

As redes sociais so hoje um dos principais canais de comunicao das organizaes


com o seu cliente final, possvel utilizar descoberta de conhecimento em
texto para extrair informaes para contribuir para a base de conhecimento da
organizao e auxilia no processo decisrio?
Comentrio: A resposta sim, as redes sociais so hoje um dos principais canais
de comunicao entre pessoas e at mesmo entre organizaes e seus clientes.
Por meio desses canais, possvel identificar opinies e at mesmo cruzar essas
informaes para auxiliar na predio de tendncias, de forma a atuar diretamente
na tomada de deciso.

Unidade 5
Atividades de Autoaprendizagem:
1) Gabarito: F V V F F V
a. ( F ) Para o desenvolvimento de solues OLAP, existem vrias metodologias
que se podem seguir para obter sucesso no mesmo.
Comentrio: Existem recomendaes para a construo de solues OLAP, mas
nenhuma metodologia consolidada ou definida.
d. ( F ) OLAP e OLTP so siglas para o mesmo tipo de processo.
Comentrio: No so todos os processo diferentes, no caso do processo OLAP, os
dados em questo so analticos.
e. ( F ) A minerao de dados uma tcnica utilizada para compor a base de dados
consumida pelas ferramentas OLAP.
Comentrio: A minerao de dados pode ser utilizada combinando com as solues
OLAP, mas ambos atuam no consumo dos dados e informaes para apresentar
informaes e conhecimentos para o usurio da soluo.

Atividade colaborativa
Nesta unidade, voc estudou sobre as solues OLAP. Responda pergunta a
seguir utilizando a ferramenta Frum, no se esquea de comentar as respostas
dos seus colegas.

Business Intelligence

168

As ferramentas OLAP apresentam uma forma amigvel de navegar entre as


dimenses modeladas na base de dados. Essa forma geralmente tabelar (por
meio de tabelas), voc acha que existem outras formas de navegao? Se sim,
falesobre elas e apresente quais as suas vantagens e desvantagens.
Comentrio: A grande vantagem das ferramentas OLAP a facilidade na navegao
entre as informaes e no entendimento dos resultados. No entanto, existem outras
maneiras para fazer esse tipo de navegao.
Uma soluo bastante interessante a baseada em perguntas e respostas, onde
o usurio pode fazer uma pergunta em linguagem natural e a aplicao retorna uma
face do cubo dimensional. Uma grande vantagem que no existe aprendizado para
saber como interagir com a ferramenta, j que a interface com a aplicao uma
pergunta escrita, por outro lado, o usurio pode no saber o que perguntar e no
chegar a encontrar as informaes implcitas.

Ps-graduao

Referncias

ADRIAANS, P.; ZANTINGE, D. Data mining. Addison Wesley Longman, England, 1996.
AGRAWAL, R.; SRIKANT, R. Mining sequential patterns. Proceedings of Eleventh
International Conf on Data Engineering. 1995.
AIRES, Rachel Virgnia Xavier. Uso de marcadores estilsticos para a busca na Web em
portugus. 2005. 202 f. Tese (Doutorado) Programa de Ps Graduao em Cincias
da Computao e Matemtica Computacional Instituto de Cincias e Matemticas e
de Computao-ICMC, Universidade de So Paulo-USP, So Carlos (SP).
ALMEIDA, Adiel Teixeira de. Um modelo de deciso para a priorizao no
planejamento de sistemas de informao. Prod., So Paulo, v. 8, n. 2, Dec. 1998.
Available from <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010365131998000200003&lng=en&nrm=iso>. Acessado em 15 Dez. 2011
ANGELONI, Maria Terezinha. Organizaes do conhecimento: infraestrutura,
pessoas e tecnologias. So Paulo: Saraiva, 2008. 363 p.
ANZANELLO, C. A. OLAP: conceitos e utilizao. Universidade Federal do Rio
Grande do Sul (UFRGS), 2002.
ARAGO, Pedro O. Um estudo sobre conceitos e tcnicas de minerao de dados.
2008. Monografia (Graduao em Tecnologia)-Faculdade de Tecnologia de So
Paulo, So Paulo, 2008.
AXELROD, R.; COHEN, M. D. Harnessing complexity: organizational implications
of a scientific frontier, Free Press, New York, 1999.
BARBOSA, Gilka Rocha; ALMEIDA, Adiel Teixeira de. Sistemas de Apoio Deciso
sob o enfoque de Profissionais de TI e de Decisores. XXII Encontro Nacional de
Engenharia de Produo. Curitiba, 2002.
BERGER, Gideon et al. Discovering unexpected patterns in temporal data
using temporal logic; Temporal Databases - Research and Practice. Heidelberg:
EdSpringer-Verlag, 1998.

170

BIO, Srgio Rodrigues. Sistemas de informao: um enfoque gerencial. So Paulo:


Atlas, 1996.
BONOMO, Peeter. Construo de Data Warehouse (DW) e Data Mart (DM).
Artigo online. Disponvel em <http://imasters.uol.com.br/artigo/11178> Acesso em:
julho de 2009.
BOVO, Alessandro Botelho. Um modelo de descoberta de conhecimento
inerente evoluo temporal dos relacionamentos entre elementos textuais.
2011. 127 (Doutorado). Programa de Ps-Graduao em Engenharia e Gesto do
Conhecimento, UFSC, Florianpolis (SC).
CABRAL, Pedro da Costa Brito. Sistemas espaciais de apoio deciso O Sistema
de Apoio ao Licenciamento da Direo Regional do Ambiente do Alentejo.
Dissertao para obteno do grau de Mestre em Sistemas de Informao
Geogrfica. Universidade Tcnica de Lisboa. Portugal, 2001.
CAMPOS, R. A. Qualidade de dados em Data Warehouse. TCC (Graduao em
Bacharelado em Sistemas de Informao). Centro de Ensino Superior de Juiz de
Fora, Juiz de Fora, 2005.
CARVALHO, D. R. Um mtodo hbrido rvore de deciso / algoritmo gentico para
data mining, Tese Doutorado PUCPR, Curitiba, 2002.
CARVALHO, Lus Alfredo V. Data mining: a minerao de dados no marketing,
medicina, economia, engenharia e administrao. Editora Cincia Moderna. Rio de
Janeiro, 2005.
CARVALHO, Juliano et al. Utilizao de tcnicas de datamining para
reconhecimento de caracteres manuscritos. Universidade Federal da Paraba, 2000.
CASTRO, Sergio A.; GONALVES, Pablo R.; CAZARINI, Edson W. O uso do OLAP
na estratgia de vendas em uma indstria de calados alavancando a gesto
de cadeia de suprimentos. XXIV Encontro Nacional de Engenharia de Produo,
Florianpolis, 2004.
CECI, Flavio. O conhecimento nas organizaes como um sistema adaptativo
complexo. In: ROVER, Aires J.; CARVALHO Marisa A.. (Org.). O sujeito do
conhecimento na sociedade em rede. 001 ed. Florianpolis: Editora: Fundao
Jos Arthur Boiteux, 2010, v. 001, p. 207-2010

Ps-graduao

171

CECI, Flavio. Um modelo semiautomtico para a construo e manuteno de


ontologias a partir de bases de documentos no estruturados. 2010. Dissertao
(Mestrado em Engenharia e Gesto do Conhecimento) Universidade Federal
de Santa Catarina, Florianpolis, 2010. Disponvel em: <http://btd.egc.ufsc.br/wpcontent/uploads/2011/04/Fl%C3%A1vio_Ceci.pdf>. Acesso em: 10 de dez. 2011.
CECI, Flavio; SILVA, Dhiogo C.; SELL, Denilson; GONALVES, Alexandre L. Towards
a semiautomatic approach for ontology maintenance. 7 CONTECSI - International
Conference on Information Systems and Technology Management. USP, So
Paulo, 2010.
CIELO, Iv. Data Warehouse como diferencial competitivo. Artigo on line.
Disponvel em <http://www.always.com.br/site2005/internet_clip07.html>. Acesso
em: julho de 2008.
CODD, E. F.; CODD, S. B.; SALLEY, C. T. Providing OLAP (on-line analytical
processing) to user-analysts: An IT mandate. 1995.
DIAS, Cristiano Araujo. Descoberta de conhecimento em banco de dados para
apoio tomada de deciso. Especializao em Informtica Empresarial. Unesp.
Guaratinguet , 2002.
DILL, Srgio Luis. Uma metodologia para desenvolvimento de Data Warehouse
e Estudo de Caso. Dissertao submetida para obteno do grau de Mestre em
Cincia da Computao. Universidade Federal de Santa Catarina, Florianpolis, 2002.
DONALD, B. High performance oracle data warehousing. USA: The Coriolis
Group, 1997.
EBECKEN, Nelson F. F.; LOPES, Maria Celia S.; COSTA, Myrian C. A. Minerao de
texto. In: REZENDE, Solange O. (Coord.). Sistemas inteligentes: fundamentos e
aplicaes. So Paulo: Manole, 2005.
FAYYAD, Usama M; PIATESTSKY-SHAPIRO, Gregory; SMYTH, Padhraic;
UTHURUSAMY, Ramasamy. Advance: knowledge discovery and data mining. 1996.
FELDMAN, R.; HIRSH, H. Exploiting background information in knowledge
discovery from text. Journal of Intelligent Information System, 1997.
FIALHO, Francisco Antnio Pereira et al. Gesto do conhecimento e
aprendizagem: as estratgias competitivas da sociedade ps-industrial.
Florianpolis: Visualbooks, 2006.

Business Intelligence

172

FOURLAN, Marcos Roberto; GONALVES FILHO, Eduardo V. Uma proposta de


aplicao de Business Intelligence no cho-de-fbrica. Gesto e Produo. V.12,
n.1, p. 55-66, 2005.
GARCIA, Ana Cristina B.; VAREJO, Flvio M.; FERRAZ, Inhama N. Aquisio de
Conhecimento. In: Sistemas inteligentes: fundamentos e aplicaes. Organizao:
REZENDE, Solange O. Editora Manole, So Paulo, 2005.
GHISI, Fernando B.; CECI, Flvio; SELL, Denilson. Aspectos relacionados com a
eficcia do processo de aquisio de conhecimento a partir de apresentao
de informaes numricas: sumrios textuais podem ser mais adequados
que representaes grficas? 5 CIDI Congresso Internacional de Design da
Informao. Florianpolis, 2011.
GONALVES, A. L. Um modelo de descoberta de conhecimento baseado na
correlao de elementos textuais e expanso vetorial aplicado engenharia e
gesto do conhecimento. 2006. 196 (Doutorado). Programa de Ps-Graduao em
Engenharia de Produo, UFSC, Florianpolis (SC).
GORDON, Steven R.; GORDON, Judith. Sistemas de informao: uma abordagem
gerencial. 3. ed. Rio de Janeiro: LTC, 2006.
GOUVEIA, Lus B.; RANITO, Joo. Sistemas de informao de apoio gesto.
Porto, Portugal: Sociedade Portuguesa de Inovao, 2004.
GOUVEIA, Henrique C. et al. Aplicao da ferramenta OLAP em diferentes
mdulos de um sistema ERP melhorando a tomada de deciso. Revista Eletrnica
de Sistemas de Informao e Gesto Tecnolgica. Vol. 01, n. 01, 2011.
HEINZLE, Roberto. Um modelo de engenharia de conhecimento para sistemas de
apoio deciso, com recursos para raciocnio abdutivo. Tese para obteno do
grau de Doutor em Engenharia e Gesto do Conhecimento. Universidade Federal
de Santa Catarina. Florianpolis, 2010.
HEINZLE, Roberto; GAUTHIER, Fernando A. Ostuni; FIALHO, Francisco Antonio P.
Semntica nos sistemas de apoio deciso: O Estado da Arte. Revista da Unifebe,
v. 1, p. Artigo 14, 2010.
HODGE, P. Business intelligence Architecture. Disponvel em <https://sites.google.
com/a/paulhodge.com/www/architecture>. Acesso em 21 de Janeiro de 2012.

Ps-graduao

173

IGARASHI, Wagner. Construo automtica de vocabulrios temticos e


clculo de aderncia curricular: uma aplicao aos fundos setoriais. 2005.
95f. Dissertao (Mestrado) Programa de Ps-Graduao em Engenharia de
Produo e Sistemas, Universidade Federal de Santa Catarina, Florianpolis (SC).
INMON, W. H. Como construir o data warehouse. Rio de Janeiro: Campus, 1997.
388 p.
INMON, W. H.; TERDEMAN, R. H.; IMHOFF, Claudia. Data warehousing: como
transformar informaes em oportunidades de negcios. So Paulo: Berkeley,
2001. 266 p.
INMON, W.; STRAUSS, D.; NEUSHLOSS, G. DW 2.0 The architecture for the next
generation of data warehousing. 2007.
LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de Informao Gerenciais:
administrando a empresa digital. So Paulo: Prentice Hall, 2001.
LOH, Stanley. Material das disciplinas de Sistemas de Informao e Data Mining.
Disponvel em <atlas.ucpel.tche.br/~loh/>. Acesso em: julho de 2009.
LUNARDI, Riccardo. Panoramic and main features of Business Analytics. Tese
(Doutorado) 2011 - Universita Degli Studi di Padova, Facolta di Ingegneria.
Ingegneria Informatica, Padova (Itlia), 2011.
KIMBALL, Ralph. Data warehouse toolkit. So Paulo: Makron Books, 1998. 379 p.
KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit: the Complete guide
to dimensional modeling. Wiley, 2002.
KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley
Computer Publishing, 1997.
MARTINHAGO, Srgio. Descoberta de conhecimento sobre o processo seletivo
da UFPR. (Dissertao) Mestrado em Mtodos Numricos em Engenharia.
Universidade Federal do Paran, Curitiba, 2005.
MAAS, Antonio Vico. Administrao de sistemas de informao. So Paulo:
rica, 1999.
NAPOLI, Marcio. Aplicao de ontologias para apoiar operaes
analticas sobre fontes estruturadas e no estruturadas. 2011. Dissertao
(Mestrado)Universidade Federal de Santa Catarina, Programa de
PsGraduao em Engenharia e Gesto do Conhecimento, Florianpolis, 2011.

Business Intelligence

174

NAVEGA, Sergio. Princpios do data mining. Cenadem 2002, Anais do Infoimagem,


2002. Disponvel em: <http://www.intelliwise.com/reports/i2002.htm>. Acesso em:
maro de 2012.
OLIVEIRA, Robson Butaca Taborelli de. O processo de extrao de conhecimento
de base de dados apoiado por agentes de software. (Dissertao) Cincia da
Computao. Universidade de So Paulo. So Carlos, 2000.
OLIVEIRA, Andr Luis B.; CARREIRA, Marcio Luis; MORETI, Thiago Moura.
Aprimorando a gesto de negcios com a utilizao de Tecnologias de
Informao. Revista de Cincias Gerenciais. Vol XIII, N 17, 2009.
OLIVEIRA, Wilson J. Data Warehouse. Visual Books, Florianopolis, 2002.
PINHEIRO, Carlos Andr Reis. Inteligncia analtica: minerao de dados e
descoberta de conhecimento. Rio de Janeiro: Cincia Moderna, 2008.
PINTAS, Juliano T.; SIQUEIRA, Sean W. M. O papel da semntica no Business
Intelligence 2.0: um exemplo no contexto de um programa de ps-graduao. VII
Simpsio Brasileiro de Sistemas de Informao. Salvador, 2011.
PRIMAK, Fbio Vincius. Decises com B.I. Rio de Janeiro: Editora Cincia
Moderna, 2008.
QUONIAM, Luc; et al. Inteligncia obtida pela aplicao de data mining em base
de teses francesas sobre o Brasil. Cincia da Informao, v. 30, n.2, p, 20-28.
Braslia, 2001.
RASMUSSEN, Nils; GOLDY, Paul S.; SOLLI, Per O. Financial Business
IntelligenceTrends, Technology, Software Selection, and Implementation.
JohnWiley and Sons, Inc., New York, 2002.
REGINATO, Luciane; NASCIMENTO, Auster Moreira. Um estudo de caso
envolvendo business intelligence como instrumento de apoio controladoria.
Revista Contabilidade & Finanas. So Paulo, p.69-83, 2007.
REZENDE, Solange. Sistemas inteligentes: fundamentos e aplicaes. So Paulo:
Ed. Manole, 2005.
ROMO, Wesley. Descoberta de conhecimento relevante em banco de dados
sobre cincia e tecnologia. (Tese) Programa de Ps-Graduao em Engenharia de
Produo. Universidade Federal de Santa Catarina. Florianpolis, 2002.

Ps-graduao

175

SASSI, Renato Jose. Data warehouse e business intelligence operacional:


revisando a tecnologia e analisando as tendncias do armazm de dados. XXX
Encontro Nacional de Engenharia de Produo. ENEGEP 2010. So Carlos, 2010.
SELL, Denilson. Uma arquitetura para business intelligence baseada em
tecnologias semnticas para suporte a aplicaes analticas. 2006. Tese
(Doutorado) - Universidade Federal de Santa Catarina, Centro Tecnolgico.
Programa de Ps-Graduao em Engenharia de Produo, Florianpolis, 2006.
SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para
processamento analtico baseado em tecnologias semnticas e em linguagem
natural. 2011. Dissertao (Mestrado) Universidade Federal de Santa Catarina,
Programa de Ps-Graduao em Engenharia e Gesto do Conhecimento,
Florianpolis, 2011.
SILVA, Joo; SAIAS, Jos. OLAP em mbito hospitalar: transformao de dados de
enfermagem para anlise multidimensional. JIUE 2011, 2th Jornada de Informtica
da Universidade de vora, Portugal, 2011.
STUDER, Rudi; BENJAMINS, V. Richard; FENSEL, Dieter. Knowledge engineering:
principles and methods. IEEE Transactions on Data and Knowledge Engineering, 1998.
TANCER, Bill. Click: o que milhes de pessoas esto fazendo on-line e por que isso
importante. Editora Globo S.A., So Paulo, 2009.
TAPSCOTT, Don; WILLIAMS, Anthony D. Wikinomics: como a colaborao em
massa pode mudar o seu negcio. Editora Nova Fronteira, Rio de Janeiro, 2006.
TEOREY, Toby; LIGHTSTONE, Sam; NADEAU, Tom. Projeto e modelagem de bancos
de dados. Elsevier, Rio de Janeiro, 2007.
THOMSEN, Erik. OLAP Solutions: building multidimensional information systems.
2ndEdition. John Wiley & Sons, Inc, 2002.
TURBAN, Efraim et al. Business Intelligence um enfoque gerencial para a
inteligncia do negcio. Editora Bookman, Porto Alegre, 2009.
VINCI, Wilson L.; NARCISO, Marcelo G. Integrao access-excel para produzir um
sistema de apoio deciso que simula um data warehouse e OLAP. XIII SIMPEP,
Simpsio de Engenharia de Produo, Bauru, 2006.
XAVIER, Fabrcio S. V.; PEREIRA, Leonardo Bruno R. SQL dos conceitos s
consultas complexas. Editora Cincia Moderna, Rio de Janeiro, 2009.

Business Intelligence

176

WITTEN, Ian H.; FRANK, Eibe. Data mining practical machine learning tools and
techniques with Java implementations. Morgan Kaufmann Publishers. 2000.
WIVES, Leandro Krug. Tecnologia de descoberta de conhecimento em textos
aplicados inteligncia competitiva. Monografia apresentada ao Exame de
Qualificao do Programa de Ps-Graduao em Computao, Universidade
Federal do Rio Grande do Sul, Porto Alegre, 2002.

Ps-graduao

You might also like