Professional Documents
Culture Documents
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Introduo
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
Quais so os pr-requisitos?
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
Estrutura do curso
1. Introduo
Este curso dividido 2. O que Big Data?
em 10 mdulos
3. Introduo ao Hadoop
4. Arquitetura Hadoop
5. Ecosistema Hadoop
6. Solues Comercias com Hadoop
7. Introduo ao Spark
8. Bancos de Dados NoSQL
9. Como as empresas esto utilizando o Big Data
10. Avaliao
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Big Data Fundamentos
www.datascienceacademy.com.br
Curta Nossas Pginas nas Redes Sociais
E fique sabendo das novidades em Data Science, Big Data, Internet das Coisas e muito mais
www.facebook.com/dsacademybr
twitter.com/dsacademybr
www.linkedin.com/company/data-science-academy
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
Aproximadamente 80%
dos dados so no-
estruturados ou esto em
diferentes formatos, o que
dificulta a anlise
www.datascienceacademy.com.br
Big Data
Modelos de anlise de
dados estruturados,
possuem limitaes
quando precisam tratar
grandes volumes de dados
www.datascienceacademy.com.br
Big Data
Muitas empresas no
sabem que dados
precisam ser analisados
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
Dados preciosos so
descartados por falta de
conhecimento ou
ferramentas de
tratamento
www.datascienceacademy.com.br
Big Data
caro manter e
organizar grandes
volumes de dados no-
estruturados
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
Estamos em um perodo de
transformao no modo em que
dirigimos nossos negcios e,
principalmente, as nossas vidas
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
Big Data
www.datascienceacademy.com.br
O que Big Data
www.datascienceacademy.com.br
O que Big Data
www.datascienceacademy.com.br
O que Big Data
www.datascienceacademy.com.br
O que Big Data
www.datascienceacademy.com.br
O que Big Data
www.datascienceacademy.com.br
O que Big Data
Qual o tamanho do Big Data?
Zettabyte x 1024
Exabyte x 1024
Petabyte x 1024
Terabyte
x 1024
Gigabyte
www.datascienceacademy.com.br
O que Big Data
Qual o tamanho do Big Data?
www.datascienceacademy.com.br
A Importncia do Big Data
www.datascienceacademy.com.br
A Importncia do Big Data
www.datascienceacademy.com.br
A Importncia do Big Data
www.datascienceacademy.com.br
A Importncia do Big Data
www.datascienceacademy.com.br
A Importncia do Big Data
www.datascienceacademy.com.br
A Importncia do Big Data
www.datascienceacademy.com.br
A Importncia do Big Data
www.datascienceacademy.com.br
A Importncia do Big Data
www.datascienceacademy.com.br
A Importncia do Big Data
Desafios
Encontrar profissionais habilitados em Big Data e Hadoop
www.datascienceacademy.com.br
A Importncia do Big Data
www.datascienceacademy.com.br
A Importncia do Big Data
www.datascienceacademy.com.br
A Importncia do Big Data
www.datascienceacademy.com.br
A Importncia do Big Data
A Importncia do Big Data
www.datascienceacademy.com.br
A Importncia do Big Data
No construa paredes.
Construa pontes!
www.datascienceacademy.com.br
A Importncia do Big Data
www.datascienceacademy.com.br
A Importncia do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
Veracidade
Volume Variedade Velocidade
Confiabilidade
Tamanho dos dados Formato dos dados Gerao dos dados
dos dados
www.datascienceacademy.com.br
Os 4 Vs do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
Alm disso, estima-se que 3.1 trilhes de dlares por ano sejam
desperdiados devido a problemas de qualidade dos dados.
www.datascienceacademy.com.br
Os 4 Vs do Big Data
Importncia: Volume, Velocidade, Variedade
Velocidade
Variedade
Volume
www.datascienceacademy.com.br
Os 4 Vs do Big Data
www.datascienceacademy.com.br
Os 4 Vs do Big Data
Processar de forma eficiente Responder ao aumento da
Coletar e analisar dados de
e com baixo custo grandes velocidade de gerao dos
diferentes formatos e fontes
volumes de dados dados
www.datascienceacademy.com.br
Introduo ao Hadoop
http://hadoop.apache.org
www.datascienceacademy.com.br
Introduo ao Hadoop
http://hadoop.apache.org
www.datascienceacademy.com.br
Introduo ao Hadoop
http://hadoop.apache.org
www.datascienceacademy.com.br
Introduo ao Hadoop
http://hadoop.apache.org
www.datascienceacademy.com.br
Introduo ao Hadoop
http://hadoop.apache.org
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
E muito mais
ainda est por
vir!!
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
Hadoop HDFS
Hadoop MapReduce
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
Por que o Hadoop est se tornando o padro nos projetos de Big Data?
www.datascienceacademy.com.br
Introduo ao Hadoop
Por que o Hadoop est se tornando o padro nos projetos de Big Data?
Baixo Tolerante a
Escalvel Flexvel
Custo Falhas
Livre
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
Namenode
www.datascienceacademy.com.br
Introduo ao Hadoop
Namenode
www.datascienceacademy.com.br
Introduo ao Hadoop
Datanode
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
Dados
K = Key
A funo de Mapeamento V = Value
mapeamento, converte
dados em pares de
chave(K)/valor(V)
K1:V K2:V K3:V K4:V
www.datascienceacademy.com.br
Introduo ao Hadoop
Mapper 1 Reducer 1
Mapper 2 Reducer 2
Mapper 4 Reducer 4
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Introduo ao Hadoop
MapReduce x RDBMS
RDBMS* MapReduce
Tamanho dos dados Gigabytes (109) Petabytes (1012)
Acesso Interativo e Batch Batch
Updates Leitura e Escrita diversas vezes WORM (Write Once, Read Many Times)
Estrutura de Dados Esquema esttico Esquema dinmico
Integridade Alta Baixa
Escalabilidade No-linear Linear
www.datascienceacademy.com.br
Introduo ao Hadoop
Tipos de Dados
www.datascienceacademy.com.br
Introduo ao Hadoop
Por qu?
www.datascienceacademy.com.br
Introduo ao Hadoop
www.datascienceacademy.com.br
Arquitetura Hadoop
www.datascienceacademy.com.br
Arquitetura Hadoop
Hadoop x RDBMS
Hadoop RDBMS
Conceito de transaes
Conceito de Jobs
Modelo de Uma transao uma unidade de
Cada Job uma unidade de trabalho
Computao trabalho
No h controle de concorrncia
Controle de concorrncia
Qualquer tipo de dado pode ser usado, Dados estruturados com controle
Modelo de
Dados em qualquer formato de esquema
Dados
Modelo de apenas leitura Modelo de leitura/escrita
Modelo de Mquinas de custo mais baixo podem ser Servidores de maior custo so
Custo usadas necessrios
Tolerncia a Simples, mas eficiente mecanismo de Falhas so raras de ocorrer
Falhas tolerncia a falha Mecanismos de recuperao
www.datascienceacademy.com.br
Arquitetura Hadoop
Hadoop HDFS
Hadoop MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
Master node
Worker (slave) node
Slave
www.datascienceacademy.com.br
Arquitetura Hadoop
Cluster Hadoop
Datacenter
www.datascienceacademy.com.br
Arquitetura Hadoop
Slave Nodes
Storage Processamento
HDFS MapReduce
Datanode TaskTracker
Master Node
Storage Processamento
HDFS MapReduce
Datanode TaskTracker
Armazenamento Computao
www.datascienceacademy.com.br
Arquitetura Hadoop
www.datascienceacademy.com.br
Arquitetura Hadoop
NameNode Master
TaskTracker
NameNode
HDFS
Slave DataNode DataNode Slave
www.datascienceacademy.com.br
Arquitetura Hadoop
Cluster Hadoop
MapReduce HDFS
Master Secondary
Nodes JobTracker NameNode
NameNode
www.datascienceacademy.com.br
Arquitetura Hadoop
Passo 1 Dados so enviados para o cluster Hadoop
Dados
www.datascienceacademy.com.br
Arquitetura Hadoop
Passo 2 Programas so executados para processar os dados
Programa
www.datascienceacademy.com.br
Arquitetura Hadoop
Programa
Dados
www.datascienceacademy.com.br
Arquitetura Hadoop
Modos de Configurao do Hadoop
Hadoop suporta 3 modos de configurao:
Modo Standalone Todos os servios Hadoop so executados em uma nica JVM, no mesmo servidor
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
Secondary
Master NameNode
NameNone
Slave
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Cluster HDFS
www.datascienceacademy.com.br
Arquitetura Hadoop
Processamento MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
MapReduce
Listas Ordenadas
www.datascienceacademy.com.br
Arquitetura Hadoop
www.datascienceacademy.com.br
Arquitetura Hadoop
MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
Processo de MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
Processo de MapReduce
Mapeamento dos dados - os dados de entrada so
primeiramente distribudos em pares key-value e
divididos em fragmentos, que so ento atribudos a
tarefas de mapeamento.
www.datascienceacademy.com.br
Arquitetura Hadoop
Processo de MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
MapReduce
www.datascienceacademy.com.br
Arquitetura Hadoop
Cache Distribudo
www.datascienceacademy.com.br
Arquitetura Hadoop
Cache Distribudo
Uma vez que voc armazena um arquivo em cache para o seu trabalho, a estrutura
Hadoop ir torn-lo disponvel em cada node (em sistema de arquivos, no em
memria) onde as tarefas de mapeamento / reduo esto em execuo.
www.datascienceacademy.com.br
Arquitetura Hadoop
Segurana
www.datascienceacademy.com.br
Arquitetura Hadoop
Segurana
www.datascienceacademy.com.br
Arquitetura Hadoop
Segurana
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Inteligncia
(Mahout, Drill)
Interao de Dados Busca
(Pig, Hive, Spark, Storm) (Lucene, Blur)
Grficos Operao e
(Giraph) Desenvolimento
Segurana (Ooozie,
(Knox, Sentry) Execuo de Jobs (MapReduce, YARN) Zookeeper,
Ambari, Whirr,
Serializao (Avro, Trevni, Thrift) Crunch)
Armazenamento de Dados
Sistema de Arquivos (HDFS)
(HBase, Cassandra)
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
http://zookeeper.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
http://zookeeper.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
http://zookeeper.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
O framework ZooKeeper foi originalmente construdo no
"Yahoo!" para acessar seus aplicativos de uma forma fcil e
robusta
Mais tarde, Apache ZooKeeper se tornou um padro para a
organizao de servios do Hadoop, HBase e outras
estruturas distribudas
Por exemplo, o HBase usa ZooKeeper para acompanhar o
http://zookeeper.apache.org estado de dados distribudos atravs do Cluster
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Zookeeper
http://zookeeper.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Oozie
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Oozie
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Oozie
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Oozie
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Oozie
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hive
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Hive utiliza:
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Hive utiliza:
MapReduce
(para execuo)
http://hive.apache.org
HDFS
(para armazenamento
e pesquisa de dados)
www.datascienceacademy.com.br
Ecosistema Hadoop
http://hive.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Exemplo:
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
http://sqoop.apache.org Ele tambm gera classes Java atravs das quais voc pode
facilmente interagir com os dados importados
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Sqoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Pig
http://pig.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Pig
http://pig.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Pig
http://pig.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Pig
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Pig
www.datascienceacademy.com.br
Ecosistema Hadoop
Componentes do Pig
Apache Pig
Pig Latin Script Language
Linguagem procedural de fluxo de dados
Contm sintaxe e comandos que podem ser aplicados
para implementar lgica de negcios
Runtime engine
Compilador que produz sequncias de programas
http://pig.apache.org MapReduce
Utiliza HDFS para armazenar e buscar dados
Usado para interagir com sistemas Hadoop
Valida e compila scripts de operao em sequncias
de Jobs MapReduce
www.datascienceacademy.com.br
Ecosistema Hadoop
Pig X SQL
Apache Pig
Pig SQL
Linguagem de script usada para Linguagem de query usada para
interagir com o HDFS interagir com bancos de dados
Passo a passo Bloco nico
Avaliao no imediata Avaliao imediata
Requer que um join seja executado 2
http://pig.apache.org
Permite resultados intermedirios vezes ou materializado como um
resultado intermedirio
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
www.datascienceacademy.com.br
Ecosistema Hadoop
O HBase um tipo de banco de dados NoSQL e utiliza o modelo
Apache Hbase key-value (chave-valor).
Cada valor identificado por uma chave.
Chaves e valores so do tipo byte-array.
http://hbase.apache.org Valores so armazenados por ordem de acordo com a chave.
Os valores podem ser facilmente acessados por suas respectivas
chaves.
No HBase, as tabelas no possuem schemas.
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
http://hbase.apache.org
O objetivo do HBase armazenar tabelas realmente grandes,
com bilhes de dados
www.datascienceacademy.com.br
Ecosistema Hadoop
Arquitetura HBase
Apache Hbase HBase possui 2 tipos de Nodes: Master e RegionServer
Master RegionServer
Somente um node Master pode ser
executado. A alta disponibilidade Um ou mais podem existir
http://hbase.apache.org
mantida pelo ZooKeeper
Responsvel pela gesto de operaes
Responsvel por armazenar as tabelas,
de cluster, como assignment, load
realizar leituras e buffers de escrita
balancing e splitting
O cliente comunica com o
No faz parte de operaes de
RegionServer para processar operaes
read/write
de leitura/escrita
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Hbase
www.datascienceacademy.com.br
Ecosistema Hadoop
HBase x RDBMS
Apache Hbase HBase RDBMS
Particionamento manual,
Particionamento automtico
realizado pelo administrador
Pode ser escalado de forma Pode ser escalado
http://hbase.apache.org linear e automtica com novos verticalmente com a adio de
nodes mais hardware
Requer hardware mais robustos
Utiliza hardware commodity
e portanto, mais caros
Tolerncia a falha pode estar
Possui tolerncia a falha
presente ou no
Com MapReduce, alavanca Precisa de muitas threads ou
processos batch processos para processamento
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
http://flume.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
http://flume.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
http://flume.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
Ele possui uma arquitetura simples e flxvel beseada em
streaming (fluxo constante) de dados
http://flume.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
http://flume.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Flume
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Mahout
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Mahout
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Mahout
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Mahout
http://mahout.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Mahout
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
http://kafka.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
http://kafka.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
Baixa latncia
http://kafka.apache.org
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Kafka
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Ambari
www.datascienceacademy.com.br
Ecosistema Hadoop
Ambari Web
Provisionamento
Monitoramento
www.datascienceacademy.com.br
Ecosistema Hadoop
Apache Ambari
www.datascienceacademy.com.br
Ecosistema Hadoop
HDFS um filesystem desenvolvido em Java e baseado no
Google File System.
www.datascienceacademy.com.br
Ecosistema Hadoop
HDFS um filesystem desenvolvido em Java e baseado no
Google File System.
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
YARN significa
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Aplicao
Gerenciamento
Armazenamento
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
www.datascienceacademy.com.br
Ecosistema Hadoop
Caracterstica Descrio
Compatibilidade Aplicaes MapReduce desenvolvidas para o Hadoop verso 1.0,
podem usar o YARN para execuo com verses mais novas do
Hadoop, sem mudar os processos existentes
Escalabilidade O Resource Manager do YARN tem o foco em gerenciar o cluster,
medida que novos nodes so adicionados, expandindo o cluster para
milhares de nodes e e petabytes de dados
Utilizao do O YARN promove a alocao dinmica de recursos do cluster,
Cluster melhorando sua utilizao e agindo de forma muito mais eficiente que
as regras estticas do MapReduce
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
Por que usar solues comerciais com Hadoop?
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
Principais Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
Principais Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
https://aws.amazon.com/elasticmapreduce
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
Apache Hadoop
Apache Pig
Apache Hive
Apache HBase
Apache Sqoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
http://www.cloudera.com
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
http://hortonworks.com
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
https://www.mapr.com
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
http://pivotal.io
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
www.datascienceacademy.com.br
Solues Comerciais com Hadoop
https://azure.microsoft.com/en-us/services/hdinsight
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
Utiliza o Hadoop (HDFS) como base, mas pode ser usado com
Cassandra, HBase e MongoDB
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
O Apache Spark oferece basicamente 3 principais benefcios:
www.datascienceacademy.com.br
Introduo ao Apache Spark
O Apache Spark oferece basicamente 3 principais benefcios:
www.datascienceacademy.com.br
Introduo ao Apache Spark
O Apache Spark oferece basicamente 3 principais benefcios:
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
Spark Framework
www.datascienceacademy.com.br
Introduo ao Apache Spark
Spark Core
www.datascienceacademy.com.br
Introduo ao Apache Spark
Spark SQL
www.datascienceacademy.com.br
Introduo ao Apache Spark
Spark Streaming
www.datascienceacademy.com.br
Introduo ao Apache Spark
Mllib
www.datascienceacademy.com.br
Introduo ao Apache Spark
GraphX
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
A verdade que criaram o Hadoop para processar grandes volumes de dados em
batch. O Big Data.
www.datascienceacademy.com.br
Introduo ao Apache Spark
Engine de computao em cluster
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
Hadoop Spark
Armazenamento distribudo + Computao Somente computao distribuda
distribuda
Framework MapReduce Computao genrica
Normalmente processa dados em disco Em disco / Em memria
(HDFS)
No ideal para trabalho iterativo Excelente para trabalhos iterativos (Machine
Learning)
At 10x mais rpido para dados em disco
Processo batch At 100x mais rpido para dados em
memria
Basicamente Java Suporta Java, Python, Scala
No possui um shell unificado Shell para explorao ad-hoc
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
Hadoop Spark
Processamento batch Hadoop MapReduce (Java, Pig, Spark RDD (Java, Python, Scala)
Hive)
Query SQL Hadoop: Hive Spark SQL
Processamento Stream / Storm, Kafka Spark Streaming
Processamento em Tempo Real
Machine Learning Mahout Spark ML Lib
Algoritmos iterativos Lento Muito rpido (em memria)
Pig com Spark ou Mix de Spark
Workflow ETL Pig, Flume
SQL e programao RDD
Volume mdio (Gigabytes /
Volume de Dados Volume gigante (Petabytes)
Terabytes)
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
www.datascienceacademy.com.br
Introduo ao Apache Spark
J usa Hadoop?
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
www.datascienceacademy.com.br
Apache Storm
Arquitetura Storm
Master Node
No Master Node
encontramos o servio
Nimbus, que
responsvel pela
atribuio de tarefas
aos Supervisors
www.datascienceacademy.com.br
Apache Storm
Arquitetura Storm
Coordenao do Cluster
O Zookeeper faz a
coordenao do
funcionamento do
cluster
www.datascienceacademy.com.br
Apache Storm
Arquitetura Storm
Supervisor
Os supervisors so
responsveis por 1 ou
mais workers e sua
funo garantir que
os workers executem
os jobs
www.datascienceacademy.com.br
Apache Storm
Arquitetura Storm
Worker Node
Os workers nodes,
executam as taferas
(jobs)
www.datascienceacademy.com.br
Apache Storm
Arquitetura Storm
Esta arquitetura
garante uma das
principais
caractersticas do
Storm:
No single-point de
falha
www.datascienceacademy.com.br
Apache Storm
Hadoop x Storm
www.datascienceacademy.com.br
Apache Storm
Hadoop x Storm
Hadoop Storm
Processamento em batch Processamento de streams em tempo
real
Arquitetura Master/Slave com ou sem Arquitetura Master/Slave com o
o Zookeeper Zookeeper
www.datascienceacademy.com.br
Apache Storm
Spark x Storm
www.datascienceacademy.com.br
Apache Storm
Spark x Storm
Spark Storm
Linguagem de programao Java, Scala Linguagem de programao Java,
Clojure, Scala
Fonte de streams no HDFS Fonte de streams no Spout
Gesto de Recursos com YARN, Mesos Gesto de Recursos com YARN, Mesos
www.datascienceacademy.com.br
Apache Storm
Situao Framework
Baixa Latncia Storm consegue obter melhor latncia que o Spark
Baixo custo de Com Spark, o mesmo cdigo pode ser usado para
desenvolvimento processamento em batch e processamento de
streams. No Storm, isso no possvel
Tolerncia a falhas Ambos so tolerantes a falhas
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
Alguns afirmam que a sigla significa Not Only SQL, enquanto outros afirmam que
significa Non-SQL. No h um consenso sobre isso. Mas pense sobre NoSQL como
uma classe de banco de dados no-relacionais que no se enquadram na
classificao de bancos de dados relacionais (RDBMS), que utilizam linguagem SQL.
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
Graph databases
Document databases
Key-values stores
Column family stores
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
Os principais Bancos de Dados NoSQL so:
Oracle NoSQL DB
Neo4J
MemcacheDB
FlockDB Key-value
Graph Redis
GraphDB
Voldemort
ArangoDB
MongoDB HBase
CouchDB Cassandra*
Document Column
RavenDB Hypertable
Terrastore Accumulo
http://nosql-database.org
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
Indexao
www.datascienceacademy.com.br
Bancos de Dados NoSQL
Agregao
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
Armazenamento
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
MongoDB RDBMS
Database Database
Collection Table
Document Tuple/Row
Field Column
Embedded Documents Table Join
Primary Key Primary Key
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
Big Data
www.datascienceacademy.com.br
Bancos de Dados NoSQL
Big Data
Gesto de Contedo
www.datascienceacademy.com.br
Bancos de Dados NoSQL
Big Data
Gesto de Contedo
Infraestrutura Social e Mobile
www.datascienceacademy.com.br
Bancos de Dados NoSQL
Big Data
Gesto de Contedo
Infraestrutura Social e Mobile
Gesto de Dados de Usurios
www.datascienceacademy.com.br
Bancos de Dados NoSQL
Big Data
Gesto de Contedo
Infraestrutura Social e Mobile
Gesto de Dados de Usurios
Data Hub
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
http://cassandra.apache.org
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
www.datascienceacademy.com.br
Bancos de Dados NoSQL
http://couchdb.apache.org
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
Manufatura
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
Produtividade
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
Finanas
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
Sade
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
Varejo
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
http://caesarscorporate.com
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
http://www.cerner.com
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
http://www.cerner.com
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
http://www.eharmony.com.br
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
http://www.eharmony.com.br
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
http://www.mastercard.com/br
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
http://www.mastercard.com/br
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
http://www.mastercard.com/br
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
http://www.nipponpaint.com
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
Outras empresas usando Hadoop:
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
Outras empresas usando Hadoop:
Empresa Especificaes Tcnicas Utilizao
Projetos de Big Data na rea financeira,
Accenture De acordo com a demanda do cliente
telecom e varejo
Plataforma de Rede Social, utiliza o Hadoop
Ning --
para relatrios e Big Data Analytics
690 nodes em cluster Hadoop,
Usa Hadoop para gerao de contedo e
Spotify totalizando 38 TB de memria RAM e 28
agregao de dados
PB de storage
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
O Hadoop j realidade!
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
Convencido?
Ainda no?
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
Pois saiba que isso raramente acontece, se que acontece.
Histrias de sucesso envolvendo Big Data tipicamente
comeam com pequenas perguntas:
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
Qual seria a frmula mgica da Netflix?
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
Qual seria a frmula mgica da Netflix?
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
5 pontos de ateno que devem ser observados quando usado Big Data:
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Bibliografia
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Encerramento
www.datascienceacademy.com.br
Curta Nossas Pginas nas Redes Sociais
E fique sabendo das novidades em Data Science, Big Data, Internet das Coisas e muito mais
www.facebook.com/dsacademybr
twitter.com/dsacademybr
www.linkedin.com/company/data-science-academy
www.datascienceacademy.com.br