You are on page 1of 32

Fundamentos de Big Data

Captulo 5 Estudos de Caso


Prof. Joo Guilherme Gallo

Aula 5.1 Estudo de caso 1

Nesta aula
Estudo de caso 1

Principais usos do Big Data


Exporao de Big Data
Encontrar, visualizar e entender o Big Data para
melhorar a tomada de deciso

Anlises Operacionais
Analisar uma variedade de dados de equipamentos
para melhorar os resultados

Principais usos do Big Data


Viso 360o dos clientes
Estender as vises de clientes existentes (CRM) pela
incorporao de fontes de informao internas e externas

Potencializao do Data Warehouse


Integrar as capacidades de Big Data e dos Data Warehouses
para aumentar a eficincia operacional
Extenso de Segurana/Inteligncia
Reduo de riscos, deteco de fraudes e monitoramento
em tempo real

Principais Objetivos
Maior eficincia nos processos de
negcio
Novos insights atravs da combinao e
anlise dos dados de novas formas
Desenvolver novos modelos de negcio
com maior presena de mercado e
receita

Abordagem de implantao

Atidan: Anlise de uso com Hadoop


Demandas
Um grande conglomerado precisava analisar o uso de suas

aplicaes web nos ltimos 10 anos usando os logs do IIS


Os logs estavam distribudos em mltiplos arquivos

Os dados continham texto livre no estruturado e continha dados


irrelevantes
Os parmetros e critrios das anlises eram desconhecidom

Atidan: Anlise de uso com Hadoop


Soluo
SGBDs tradicionais no conseguem lidar com o problema devido

ao volume dos dados e incerteza dos critrios de anlise


Atidan desenvolveu uma soluo baseada em Hadoop, capaz de
transformar os dados brutos em relatrios facilmente
A soluo era tolerante a falhas por inconsistncia de dados

Atidan: Anlise de uso com Hadoop


Soluo
Hadoop oferece elasticidade para adio de dados incremental
Escalabilidade na casa dos Petabytes
O processamento pode ser escalado de 1 a 100 ns em funo
do tamanho dos dados e de sua complexidade

Atidan: Anlise de uso com Hadoop


Soluo
Arquitetura schema-less permite a alterao dinmica do

modelo de dados e analytics, mesmo quando o projeto j estiver


em fases avanadas
A organizao teve novos e inesperados insights sobre o
comportamento dos colaboradores, clientes e fornecedores
Correlaes entre padro de uso e atrito dos colaboradores e sua
produtividade foram estabelecidos

Atidan: Anlise de uso com Hadoop

Atidan: Anlise de uso com Hadoop


Big Query Hive
Tamanho dos dados coeltados e analisados
fazem solues tradicionais de
warehousing proibitivamente caras
MapReduce complexo para escrever
Hive oferece uma linguagem de alto nvel
como SQL
Permite anlises AdHoc
No necessrio conhecer os padres de
antemo

Concluso
Estudo de caso 1

Prxima aula
Estudo de caso 2

Aula 5.2 Estudo de caso 2

Nesta aula
Estudo de caso 2

Coleta de dados de clientes usando Hadoop


Demandas
Uma instituio financeira precisava coletar dados de seus

clientes periodicamente
Os clientes eram muito relutantes em atualizar seus dados
Esses dados precisam ser checados nas bilhes de transaes
recebidas todos os dias

Coleta de dados de clientes usando Hadoop


Demandas
Esses dados precisam ser checados nas bilhes de transaes

recebidas todos os dias


A instituio deseja buscar a informao disponvel em domnio

pblico em sites de mdia social


Os dados possuem texto livre, no estruturado e tambm contm
dados irrelevantes

Coleta de dados de clientes usando Hadoop


Soluo
Um banco de dados de grafos construdo com os dados extrados

das redes sociais para analisar as transaes


Atidan desenvolveu uma soluo baseada em Hadoop capaz de
transformar os dados brutos no banco de dados de grafos
Agregao da informao dos clientes disponvel nas fontes
existentes, redes sociais e bases governamentais

Coleta de dados de clientes usando Hadoop


Soluo
Anlise das transaes para encontrar padres escondidos
Habilitar anlise de links e monitoramento de risco
Facilitar a tomada de deciso e a descoberta de clientes

Coleta de dados de clientes usando Hadoop

Coleta de dados de clientes usando Hadoop

Reduz o custo de follow-up com usurios


Reduz as perdas, identificando usurios de risco antecipadamente
AML baseada em banco de grafos
Insights

Produtos
Clientes
Emprstimos para clientes existentes
Oportunidades de investimento

Reduo de erros operacionais


Rastreabilidade das fontes de dados

Scan e categorizao de Email com MongoDB


Demandas
Buscar milhes de e-mails de uma conta de webmail, categoriz-los

e disponibiliz-los no frontend individual do usurio


O processo possui demandas significativas de confiabilidade e
escalabilidade e tambm receber muito SPAM

Coleta de dados de clientes usando Hadoop


Soluo
Atidan propos uma soluo MongoDB-Drupal
Agendador foi criada para buscar os cabealhos dos e-mails de todos
os usurios
Arquivou os cabealhos em um catlogo intermedirio em MongoDB

Coleta de dados de clientes usando Hadoop


Soluo
Dados transformados segundo o endereo do destinatrio e as

preferncias do usurio. SPAM foi removido. Corpo do e-mail foi


processado em busca dos registros filtrados e salvos no catlogo

final no MongoDB
E-mails do catlogo final so disponibilizados na plataforma de

frontend (Drupal)

Pontos chave
Tirar proveito do poder de processamento do MongoDB para os

milhes de e-mails dirios. muito mais rpido, fcil de escalar e


muito flexvel
A tarefa foi dividida em diversas sub-tarefas e algoritmos melhores
foram usados para performance e eficincia

Tecnologias utilizadas
Node.js (transformao de dados)
MongoDB (banco de dados)
Schema-less
RESTFUL para acessar os dados do navegador

Drupal (frontend)

Tecnologias utilizadas
JSON (unidade bsica de armazenamento e transmisso de dados)
Armazenamento e consulta
NoSQL/Simple/Schema-less

Vantagens: Escalvel, flexvel e simples

Conectividade: node.js (Serverside JavaScript)

Concluso
Estudo de caso 2

Prxima aula
Big Data em 30 minutos Parte I

You might also like