You are on page 1of 34

Fundamentos de Big Data

Captulo 6 Big Data em 30 minutos


Prof. Joo Guilherme Gallo

Aula 6.1 Big Data em 30 minutos


Parte 1

Nesta aula
Reviso Geral: Big Data em 30 minutos Parte 1

Big Data em 30 minutos - Parte 1


Definio e fundamentos
Mais que uma tecnologia, um conjunto de processos, prticas e
tecnologias que permitem s empresas analisar dados que antes no
tinham acesso, tomar decises e gerenciar suas atividades de maneira
mais eficiente, baseando-se nos fatos instantneos de todo o
ecossistema onde esto inseridas

Big Data em 30 minutos - Parte 1


Definio e fundamentos
Big Data = Volume + Variedade + Velocidade + Veracidade + Valor
Internet das coisas, redes sociais, sistemas de vigilncia, sistemas de
produo, ERPs, CRMs, fotos, videos, e-commerce etc geram dados de
forma distribuda na ordem de 2,5 exabytes (1.000.000 Terabytes) todos
os dias

Big Data em 30 minutos - Parte 1


Definio e fundamentos

Sistemas tradicionais no suportam as necessidades de processamento e


volume de dados tratados pelo Big Data

Aplicaes orientadas a testes A/B, aprendizagem de regras de associao,


classificao, anlise de clusters, machine learning, processamento de
linguagem natural, redes neurais, reconhecimento de padres, deteco de
anomalias, aprendizagem supervisionada e no supervisionada, simulao,
anlise de sries temporais e outros

Big Data em 30 minutos - Parte 1


Por que utilizar o Big Data?

Dados se tornaram to importantes quanto o trabalho e o capital


- Infonomics
A disponibilidade de dados nunca foi to grande
- Informaes postada espontaneamente pelos usurios de redes sociais
- Utilizao de portais de notcias com comentrios
- Fruns de discusso
- Digitalizao de informaes antigas
- Informatizao de processos
- Cultura de compartilhamento de informaes

Big Data em 30 minutos - Parte 1


Por que utilizar o Big Data?
Tecnologia acessvel a todos
- Computao em nuvem
- Capacidade computacional elstica
- Capacidade de lidar com dados estruturados e no estruturados
- Ferramentas para coleta, integrao, agregao e anlise dos dados
Gerao de valor pela transparncia da informao e melhor
entendimento do perfil dos usurios e clientes
Sofisticao das ferramentas de anlise para o desenvolvimento da
prxima gerao de produtos

Big Data em 30 minutos - Parte 1


Impacto do Big Data
Integrao de informaes externas empresa e sobre as quais ela no
tem controle da produo

Identificao de padres de correlacionamento desconhecidos


Tomada de decises baseadas em fatos ao invs da intuio
Mudana dos workflows que foram desenhados para um cenrio sem a
existncia de solues de Big Data

Big Data em 30 minutos - Parte 1


Impacto do Big Data
Coopetio entre empresas do mesmo segmento para acelerar os
processos de P&D

Adoo macia da arquitetura de cloud computing


Criao das posies de Data Scientists e CDO

Big Data em 30 minutos - Parte 1


Impacto do Big Data
Acesso a dados at ento indisponveis
Cruzamento e integrao e dados entre fontes originalmente isoladas

Segmentao precisa da populao chegando ao nvel do usurio


Adoo de anlises preditivas
Substituio e apoio nas decises humanas

Big Data em 30 minutos - Parte 1


Impacto do Big Data
Criao de modelos de negcio baseados no valor das informaes
armazenadas e analisadas
Novas preocupaes com a segurana dos dados
Criao da regulamentao da privacidade dos indivduos

Big Data em 30 minutos - Parte 1


Adoo pelas empresas
Big Data apresenta vantagens competitivas em todos os segmentos

empresariais em maior ou menor grau


First movers apresentam vantagens competitivas substanciais

Setores onde o uso fica mais evidente no momento so: sade,


administrao pblica, segurana pblica, financeiro, marketing,

educao, tecnologia da informao, varejo e desenvolvimento de


produtos

Big Data em 30 minutos - Parte 1


Adoo pelas empresas
Skybox: tira fotos de satlite para vender informaes em tempo real a
respeito da disponibilidade de vagas em uma cidade ou da ocupao de

um porto
Global Pulse e Google Flu Trends: interpretam a linguagem natural para

identificar epidemias de doena

Big Data em 30 minutos - Parte 1


Adoo pelas empresas
Dollar General: monitora combinaes de produtos colocados nos
carrinhos
Sprint Nextel: utiliza uma extensa base dos gostos e relacionamento dos
clientes para o atendimento de CRM
IDXP: monitora os caminhos dos clientes dentro de supermercados para

definir o posicionamento de produtos

Big Data em 30 minutos - Parte 1

Estratgias
Ainda estamos no incio da era do Big Data
A maior parte dos projetos so provas de conceito e definiro as
polticas das empresas nesse novo ambiente
A evoluo dos projetos de Big Data
1. Extrao dos relatrios de anlises descritivas (BI tradicional)
2. Trabalho com dados em tempo real
3. Anlises preditivas
4. Anlise prescritiva
Poltica de privacidade e uso das informaes

Big Data em 30 minutos - Parte 1


Estratgias
Passo a passo para o Big Data:

Identificao dos dados que podem ser utilizados pela empresa


Identificar as oportunidades de explorao da informao e os setores de
maior potencial
Criar a infraestrutura organizacional e de processos para aproveitar as
informaes geradas a partir das anlises de Big Data
Desenhar a estratgia de tecnologia para inserir o Big Data na organizao

Concluso
Big Data em 30 minutos Parte I

Prxima aula
Big Data em 30 minutos Parte II

Aula 6.2 Reviso Geral: Big Data em 30 minutos


Parte 2

Nesta aula
Big Data em 30 minutos Parte 2

Big Data em 30 minutos - Parte 2


Infraestrutura de tecnologia
Principais tecnologias
Analticas
Hadoop
MapReduce
Spark
Armazenamento
Bancos de dados NoSQL
Colunares (Big Table), Key/Value (DynamoDB), Document
(MongoDB e Lotus Notes) e Grafos (No4j)
Tecnologias tradicionais no so adequadas

Big Data em 30 minutos - Parte 2


Infraestrutura de tecnologia
Equipamentos prprios x Cloud Computing
Necessidade de Stream Computing e bancos residentes em memria

Coletores capazes de buscar os dados distribudos


Filtros para eliminar os rudos
Ferramentas de integrao de dados

Big Data em 30 minutos - Parte 2


Infraestrutura de tecnologia
Integrao de tecnologias legadas
Modelos de dados no estruturados

Ambientes de computao paralela


Granularidade de armazenamento dos dados processados

Big Data em 30 minutos - Parte 2


Hadoop
O corao Open Source do Big Data
Projeto da comunidade Apache, foi criado pelo Yahoo em 2005,
baseando-se no modelo do Google File System (GFS) e no MapReduce
Combina o Hadoop MapReduce (HMR) e o Hadoop Distributed File
System (HDFS)
HDFS
Armazena os dados em diversos servidores distribudos gerenciados
por um servidor especial, o NameNode
Utiliza servidores e discos locais de baixo custo
Responsvel pelo sistema de tolerncia a falhas

Big Data em 30 minutos - Parte 2


Hadoop
MapReduce
Possibilita a escalabilidade por meio do paralelismo do
processamento das tarefas
Map: mapeamento dos dados em tuplas
Reduce: reduo das tuplas mapeadas em conjuntos menores
Ncleo central nico com implementaes em distribuies com
caractersticas prprias
Cloudera, DataSax, Amazon Elastic MapReduce, IBM InfoSphere Big
Insights, EMC Greenplum HD Community Edition, Pentaho

Big Data em 30 minutos - Parte 2


Hadoop

Big Data em 30 minutos - Parte 2


Spark
Framework construdo com foco em VELOCIDADE
At 100 vezes mais rpido

Facilidade no uso e anlises sofisticadas


Suporte: MapReduce, SQL, Streaming, Machine Learning, Grafos

Possibilidade de encadeamento de tarefas

Big Data em 30 minutos - Parte 2

Spark
Compartilhamento de dados em memria
Aproveita o HDFS
Estede o MapReduce
Otimiza operaes de grafos

RDD: Conjunto de dados resilientes e distribudos

Big Data em 30 minutos - Parte 2


Outras Tecnologias
Stream Processing
Visualizao de dados
Tag Clouds
Clustergrams
History Flow
Spatial Information Flow
Interfaces de voz
IBM Watson

Big Data em 30 minutos - Parte 2


Os profissionais

Cientista de dados: profissionais capacitados em estatstica, cincia da

computao e matemtica que sejam capazes de analisar grandes volumes de


dados e extrair deles insights que criem novas oportunidades de negcio.

Analista de negcio: conhecedor profundo do negcio que atua, consegue


formular as perguntas corretas, analisar as respostas e tomar decises
estratgicas e tticas que alavanquem novos negcios e aumentem a
lucratividade da empresa.

Big Data em 30 minutos - Parte 2


Os profissionais
Profissional de TI: responsvel pela infraestrutura e suporte tcnico ao Big
Data. Deve ser capaz de gerenciar clusters de alto desempenho,

plataforma Hadoop e pensar volumes de dados significativamente grandes


e muito variados.

Big Data em 30 minutos - Parte 2


Os profissionais
CDO (Chief Data Officer)

Profissional snior, C-Level, que funciona como impulsionador do valor para


organizao atravs da anlise avanada de dados. Realiza a ligao entre

a TI e a equipe de negcios gerando valor pela explorao de dados


internos e externos.

Atua de forma integrada com os demais executivos C-Level reportando-se


diretamente ao CEO.

Concluso
Big Data em 30 minutos Parte II

You might also like