You are on page 1of 46

Fundamentos de Big Data

Joo Guilherme Gallo

2016

Fundamentos de Big Data


Joo Guilherme Gallo
Copyright do Instituto de Gesto em Tecnologia da Informao.
Todos os direitos reservados.

Sumrio
3
Captulo 1 Definio e fundamentos do Big Data ............................................................ 4
Captulo 2 Utilizao do Big Data ......................................................................................... 14
Captulo 3 Tecnologia para o Big Data ............................................................................... 22
Captulo 4 Capacitao ............................................................................................................. 43
Referncias ....................................................................................................................................... 46

Captulo 1 Definio e fundamentos do Big Data

No mundo atual, a conectividade transforma radicalmente as experincias de


uso de dispositivos e sistemas com os quais estvamos acostumados, mas que
at a ltima dcada comportavam-se de maneira completamente distinta.
A cena de uma pessoa sentada em frente a um computador, mandando
mensagens por aplicativos diversos em seu smartphone enquanto assiste a um
vdeo no Netflix e conversa pelo Skype com um amigo do outro lado do mundo
no est mais to distante de ns mesmos.
Os registros de cada passo da vida moderna em redes sociais e o
compartilhamento de informaes entre pessoas e empresas tm mudado a
cultura geral da humanidade e criado um ambiente propcio a uma nova onda de
inovaes como nunca se viu antes.
No mais possvel dizer quando se est em casa e quando se est no
trabalho, pois o trabalho vai pra casa e a casa vai para o trabalho, as relaes
interpessoais e entre indivduos e empresas, firmadas desde a era da revoluo
industrial, foram quebradas e um novo modelo se forma.
Quando pensamos que, aproximadamente, 15% das pessoas que habitam
esse planeta esto no Facebook e que ao segmentarmos para os oriundos do
Baby Boom esse nmero salta para 72%, vemos que no h mais como pensar
como antigamente.
O volume de informaes geradas pela sociedade assustador:

O Twitter gera por dia 12 terabytes de tutes

Medidores inteligentes de energia realizam 350 bilhes de medies por


ano

O Google estima que a cada dois dias so gerados cerca de cinco exabytes
de informao: isso o que a humanidade gerou em toda a sua histria
at 2003.

1.1 - Definio e contextualizao

Nos ltimos anos, o termo Big Data tem chamado muito a ateno da mdia
em geral, no apenas pelas possibilidades de sua utilizao, mas tambm pelo
forte relacionamento com esse novo modo de vida da humanidade.

Figura 1 - O crescimento do interesse no termo Big Data - Fonte: Google Trends

Big Data significa coisas diferentes para pessoas diferentes. O grande


interesse das pessoas no tema reflete, por motivos bvios, em toda a mdia.
Diversas revistas, especializadas ou no, tem dado grande importncia ao tema
e o abordado sob ticas completamente distintas. As abordagens dadas por
revistas de setores diferentes, bem como as publicaes de fornecedores de
tecnologia ajudam a aumentar a confuso a respeito do tema, pois cada
publicao tem um vis fortemente orientado aos seus interesses.

Figura 2 - Intensa cobertura da mdia do tema Big Data

Existem diversas definies de Big Data de autores de referncia no mercado.


A McKinsey Global Institute define Big Data como a intensa utilizao de
redes sociais online, de dispositivos mveis para conexo Internet, transaes
e contedos digitais e tambm o crescente uso de computao em nuvem tem
gerado quantidades incalculveis de dados. O termo Big Data refere-se a este
conjunto de dados cujo crescimento exponencial e cuja dimenso est alm
das habilidades das ferramentas tpicas de capturar, gerenciar e analisar dados.
J o Gartner define Big Data como o termo adotado pelo mercado para
descrever problemas no gerenciamento e processamento de informaes
extremas as quais excedem a capacidade das tecnologias de informaes
tradicionais ao longo de uma ou vrias dimenses. Big Data est focado
principalmente em questes de volume de conjunto de dados extremamente
grandes gerados a partir de prticas tecnolgicas, tais como mdia social,
tecnologias

operacionais,

acessos

Internet

fontes

de

informaes

distribudas. Big Data essencialmente uma prtica que apresenta novas


oportunidades de negcios.

1.2 - Definio e contextualizao


Geralmente, o Big Data caracterizado pelos chamados trs Vs:

Volume

Variedade

Velocidade

Alm dessas dimenses, h outras duas utilizadas por alguns autores que
julgo serem muitssimo pertinentes tambm:

Veracidade

Valor

Quando falamos de volume em Big Data, estamos falando de uma quantidade


enorme de dados. Essa caracterstica, no entanto, extremamente subjetiva,
pois com a rpida evoluo da tecnologia para o armazenamento de dados
volumes que hora eram considerados grandes passam a ser irrisrios por isso

classificar

essa

dimenso

por

uma

quantidade

pr-definida

de

dados

armazenados no seria uma boa ideia. A grande quantidade de dados


disponveis e analisados impulsionada por diversos fatores j citados
anteriormente, no entanto relevante ressaltar que a viso 360 graus das
empresas, a digitalizao dos arquivos de sistemas transacionais, sensores,
cmeras, mdias sociais e a tendncia da tomada de deciso baseada em fatos e
no mais em intuio, mas em fatos contribui diretamente para esse
crescimento.
A Variedade uma das dimenses que mais caracterizam o Big Data. A
possibilidade de integrar dados estruturados, tradicionalmente utilizados pelas
empresas com outros semiestruturados alm de textos livres, fotos, vdeos,
redes sociais e sistemas automatizados alm de outros.
Quando se fala em Velocidade, fala-se de acesso de dados em tempo real e da
reduo da latncia da informao ao seu mximo. O modelo deve ser altamente
flexvel adaptado a solicitaes no previstas de forma gil.
A Veracidade determina a confiana em todo o sistema, um sistema s faz
sentido se os tomadores de deciso realmente puderem confiar no que chega
pra eles. As fontes de dados devem ser confiveis o suficiente para no correr o
risco de fazer informaes incorretas.
Ao analisar o valor dos dados, tem-se que ter em mente que a receita oriunda
do projeto de Big Data deve suplantar o investimento em larga escala.
A quantidade de informaes gerada tem crescido de forma sustentvel e
impressionante. J se diz hoje em dia que vivemos uma nova Lei de Moore,
agora focada na gerao de dados.
As informaes vm de todas as fontes, dos mais de 600 milhes de web
sites, do mais de 100 mil tweets por minuto, das postagens dos mais de 1
bilho de usurios no Facebook, dos sensores e cmeras espalhados pelas
cidades monitorando o trnsito e a segurana pblica, dos mais de 1 bilho de
smartphones, etc.
Pensando nisso, no difcil imaginar o porqu dos 1,8 zetabytes gerados em
2012. Chegaremos a 7,9 zetabytes em 2015, ou seja, se hoje podemos dizer

que 90% dos dados existentes foram gerados nos ltimos dois anos, daqui a
dois anos isso tambm ser verdade.

Figura 3 - Ordens de grandeza do volume de dados

Para referncia:

0,5 zetabytes; toda a Internet em 2009

1 zetabyte: 75 bilhes de Ipads Air que se empilhados dariam 1,5 vezes a


distncia da Terra da Lua

42 zetabytes: todas as palavras ditas pela humanidade em toda sua


histria se digitalizadas

Figura 4 - Evoluo do volume da informao digital

1.3 Por que Big Data?


Considerando tudo o que foi exposto no primeiro captulo, fcil perceber
que a importncia dos dados na atual economia vem crescendo a cada dia. J
possvel dizer que o modelo econmico mundial est migrando para um modelo
baseado no trip: capital, trabalho e dados.
Em 2012, a Pew Internet fez uma pesquisa a respeito do Big Data e da
percepo

das

pessoas

respeito

dele

(pewinternet.org/~/media/Files/Reports/2012/PIP_Future_of_Internet_2012_
Big_Data.pdf). Nessa pesquisa, as pessoas foram expostas a duas afirmaes a
respeito do Big Data, uma de carter positivo e outra de carter negativo e
deveriam se posicionar a favor ou contra cada uma em funo dos seus
impactos nas empresas, pessoas, economia e sociedade em geral.

Graas s diversas mudanas tais como a construo da Internet das


Coisas, anlise de grandes data sets ir melhorar a inteligncia social,
poltica e econmica at 2020. O surgimento do Big Data ir permitir a
previso em tempo real de eventos e o desenvolvimento de softwares de
inferncia tornar possvel o reconhecimento de padres de dados e a
criao de algoritmos de correlacionamentos que permitam um novo
entendimento do mundo. No fim das contas, Big Data extremamente
positiva para a sociedade em quase todos os aspectos.

Graas s diversas mudanas tais como a construo da Internet das


Coisas, anlise de grandes data sets ir causar mais problemas do que
solues at 2020. A existncia de data sets imensos para anlises daro
uma falsa confiana nos nossos poderes preditivos o que levar a muitos
erros grave na tomada de decises.
As anlises de Big Data sero mal utilizadas por pessoas e organizaes
poderosas para benefcio prprio e manipular as descobertas para o que
desejam.

O resultado foi 53% favorvel ao vis positivo e 39% alinhados com o


posicionamento

negativo. Isso

mostra que ainda

estamos

no incio

do

entendimento do que possvel fazer com Big Data. Apesar das possibilidades
serem incrveis, questes como a privacidade e o uso indevido ou no autorizado
de informaes pessoais devem ser consideradas. Atualmente, j existem vrios

casos de identificao de padres que nunca poderiam ser encontrados em


datasets menores.

60

50
40
30
20
10
0
Positivo

Negativo

Figura 5 - O resultado da pesquisa da Pew Internet

O Google Flu Trends aproveita a imensa quantidade de dados que obtm a


cada minuto no seu buscador e que esto relacionados com as necessidades das
pessoas para identificar padres de tendncia de propagao de gripe antes
mesmo dos nmeros oficiais refletirem a situao. Este mesmo modelo pode ser
adaptado para inflao, taxa de desemprego etc.
Outras empresas utilizam o Big Data de maneira muitssimo eficiente como
Amazon e NetFlix em seus sistemas de recomendao.
A tecnologia ainda tem muito a evoluir, especialmente em relao facilidade
de manuseio de dados no estruturados e novas formas de visualizao de
dados. Ferramentas como Inteligncia Artificial, como ferramenta auxiliar para
anlise de grandes volumes de dados. Na aprendizagem de mquinas aprendese com dados e quanto mais dados mais se aprende, logo os volumes de dados
de Big Data potencializam sensivelmente o seu valor.
Big Data vai demandar novas funes e habilidades, mas no cenrio
perfeito chegaremos ao do-it-yourself analytics, ou seja, um modelo onde

pessoas com pouca ou nenhuma formao sero capazes de realizar suas


anlises. Na prtica, todo ramo do conhecimento humano vai ser intensivo em
dados.
As previses realizadas atravs de Big Data no tem nada a ver com
futurologia. A partir de imensos volumes de dados so realizadas anlises de
padres e correlaes para produzir informaes valiosssimas em todos os
setores da sociedade humana, governos, empresas, etc.
Analisar dados fundamental, mas Big Data envolve outras etapas e no
apenas anlise e modelagem dos dados.
A primeira fase de um processo de Big Data a coleta de dados. So
dados oriundos de sistemas transacionais, redes sociais, sensores, cmeras de
segurana etc, com volumes e variedade impressionantes.
Em seguida, temos a integrao, que agregar todos os dados em
diversas fontes para gerar informaes e conhecimentos no disponveis
inicialmente.
A fase mais evidente a analtica, com a anlise e interpretao dos
resultados. nessa fase que so definidas as perguntas a serem feitas aos
dados para buscar as correlaes que podem gerar valor ao negcio.
Big Data demanda uma grande computacional. Um ambiente de cloud
computing, em geral, o mais adequado para essa demanda. Grandes volumes
de dados s podem ser processados por meio de paralelismo com tecnologias
como o Hadoop e o MapReduce.
A privacidade outro tema central em Big Data. Vrios setores so
altamente regulamentados, tais como sade e financeiro. As preocupaes com
a pegada digital devem ser cada vez mais levadas em conta.
Com Big Data podemos gerar grande valor pela transformao da
informao em algo disponvel para todos. A segmentao mais refinada dos
clientes possibilita a oferta de produtos mais adequados a cada perfil bem como
o desenvolvimento das prximas geraes de produtos e maneira mais eficiente.
Os riscos nas tomadas de deciso so reduzidos ao tom-las baseando-se em
fatos ao invs da intuio.

Captulo 2 Utilizao do Big Data

2.1 - Novos Modelos de Negcio


Big Data ainda no um tema central para a maioria dos executivos, mas
seu potencial pode revolucionar a competitividade das empresas: aquele que
sabe o que seus clientes desejam e como opinam sobre sua empresa pode
mudar o jogo.
Big Data cria valor encontrando padres e relacionamentos escondidos entre
os dados que antes estavam ocultos nos data warehouses e na prpria web. A
McKinsey identifica isso em seu relatrio Big Data: The Next Frontier for
Innovation,

Competition

and

Productivity

(www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_da
ta_The_next_frontier_for_innovation.
Algumas

empresas

conseguiram

substanciais

vantagens

competitivas

explorando de forma analtica e em tempo hbil grandes volumes de dados.


Enquanto nos data warehouses o que se tm so dados acumulados pelos ERPs
o Big Data procura entender tambm as compras que no foram realizadas e o
que os clientes comentaram sobre a experincia em sua empresa nas redes
sociais.
Infelizmente, colocar o Big Data em prtica no simplesmente instalar uma
nova tecnologia. So necessrias mudanas na cultura e nos processos de
negcio das empresas
Empresas comeam a compartilhar dados para acelerar os seus processos de
P&D, um bom exemplo a Pistoia Alliance onde empresas de life sciences
coopetem. A ideia bsica criar um pool de Data Warehouses e tecnologias
inovadoras para compartilhar informaes entre diversas empresas. Modelos de
computao em nuvem do ganho de escala aos projetos de P&D e reduzindo
assim os seus custos.

Essa cultura vista por muitos como o grande diferencial do Vale do Silcio
para o desenvolvimento das empresas ali instaladas, por l conhecido como
Paying it forward.
Esse cenrio abre espao para a posio de cientista de dados nas empresas,
um profissional multidisciplinar, com habilidades de cincia da computao,
matemtica, estatstica e do negcio onde est inserido. As iniciativas de Big
Data tm alguns impactos bastante evidentes:
Transparncia: a disponibilizao de dados, antes inacessveis, possibilita que
o pblico cruze informaes at ento isoladas em sistemas isolados criando
oportunidades para a melhoria da gesto de empresas, cidades e governos por
meio de sua integrao. A otimizao das informaes e tecnologias permite a
criao do conceito de cidades inteligentes.
Segmentao precisa da populao: a ampliao das fontes de informao
permitem chegar ao nvel dos indivduos o que muda a prpria definio de
anonimato. A vida real das pessoas, cada vez mais, esta ligada ao seu perfil
virtual.
Anlises preditivas: a integrao de informaes coletadas de redes sociais o
pano de fundo para diversos projetos. A anlise de padres em imensos volumes
de dados possvel prever epidemias, secas severas e outras ocorrncias.
Alguns projetos que se destacam nesse ambiente h o Global Pulse da ONu que
ajuda a melhorar a vida das populaes do planeta e o Google Flu Trends que
identifica as configuraes ambientais para a ocorrncia de epidemias de gripe.
Substituio/complemento
automatizados:

diversas

de

decises

humanas

funes

como

gerenciamento

por
de

algoritmos
trfego.

monitoramento dos sensores de trfego permite atuar nos tempos de semforos


e definir rotas alternativas e com isso otimizar o desafio da mobilidade urbana
nas grandes cidades.

Criao de novos modelos de negcios: o valor dado s informaes


armazenadas e analisadas cria um novo ambiente de gerao de novos negcios
que explorem de maneira disruptiva essas oportunidades. Novas unidades de
negcio

bem

como

novas

empresas

surgem

mudam

cenrio

do

empreendedorismo em TI.

2.2 O Ecossistema de Dados


O cenrio criado pelo Big Data e as possibilidades de explorao das anlises
dos dados disponveis cria um ambiente semelhante ao da Internet no final dos
anos 90, onde novas ideias surgiam a todo o momento e novas empresas
dominavam espaos onde grandes corporaes no conseguiam entrar.

2.3 O uso do Big Data nas empresas


O Big Data afetar todos os setores da economia em maior ou menor grau.
As empresas que comearem a utiliz-lo mais cedo e, especialmente aquelas
que

conseguirem

criar

uma

cultura

organizacional

que

favorea

aproveitamento contnuo das oportunidades criadas de forma criativa, tero uma


vantagem competitiva sustentvel.
A tecnologia est disponvel para empresas de todos os tamanhos, o
diferencial est na sofisticao e maturidade na gesto da empresa. Voc no
precisa de grandes servidores na sua empresa para poder utilizar solues de
Big Data.

2.4 - Sade
Na sade, diversos atores desempenham papis distintos: pacientes,
profissionais de sade, hospitais, laboratrios farmacuticos, empresas de
seguro sade, governo etc.
A quantidade de dados disponveis ou potencialmente disponveis incrvel e
possibilita pesquisas de medicamentos, anlises de interaes medicamentosas,
eficcia de tratamentos e outros.
A possibilidade de utilizar dados de grupos enormes de pacientes nunca
existiu de maneira to clara e muito menos de maneira to simples. Hoje

possvel analisar praticamente todas as interaes entre medicamentos possveis


sem que se tenha que planej-la, basta monitorar o andamento do tratamento
dos pacientes e cruzar os medicamentos utilizados por todos.
Atualmente, pesquisadores da Universidade de Stanford j utilizam tcnicas
de minerao de dados para identificarem essas correlaes tendo encontrado
dezenas de combinaes que geram efeitos colaterais que no eram conhecidos.
O controle de doenas outra ferramenta importante o Google Flu Trends,
por exemplo, utiliza as postagens em redes sociais e consultas em mecanismos
de busca para identificar surtos de doenas em tempo real com uma resposta
sensivelmente mais rpida do que a apresentada pelos mecanismos tradicionais
dos governos.
Os mdicos podem integrar uma srie de dados coletados por sensores de
monitoramento de seus pacientes e se valer de comunidades online para troca
de experincias.
Por fim os pacientes podem utilizar os registros de outros pacientes para
escolher os prprios mdicos, clnicas e hospitais para o seu prprio tratamento.

2.5 - Administrao Pblica


Governos de todo o mundo esto sendo pressionados a se tornarem mais
transparentes e eficientes alm de menos onerosos sociedade. Leis esto
sendo criadas para tornar isso realidade, mas a maioria dos rgo atua de forma
isolada com pouca ou nenhuma troca de informaes entre si e muito menos
com a sociedade em geral.
Por outro lado, os sistemas vm sendo digitalizados h muito tempo o que
resulta em um volume significativo de dados a serem explorados. Esses dados
podem ser utilizados para detectar fraudes e anomalias em sistemas de
arrecadao

de

impostos,

pagamentos

de

benefcio,

financiamento

de

campanhas e gastos pblicos.


A melhor utilizao dos recursos urbanos tais como vias, linhas de transporte
pblico e outros podem ser adaptados ou ter seu funcionamento determinado
para que o resultado seja o mais eficiente possvel economizando assim tempo e
dinheiro pblico na ampliao dessa infraestrutura.

importante lembrar que essas mudanas s sero alcanadas com


mudanas organizacionais, culturais e de processos. A deciso essencialmente
poltica, e no tcnica.

2.6 - Segurana Pblica


Um crime pode ser solucionado por um detalhe insignificante, um apelido,
uma tatuagem ou mesmo um recibo de estacionamento.
Algoritmos sofisticados de anlise de dados e recursos de busca so capazes
de estabelecer conexes atravs de mltiplos bancos de dados gerados por
cmeras de vigilncia, comentrios e posts em redes sociais e sistemas de
registro de ocorrncias.
Essas ferramentas permitem que as agncias de inteligncia e segurana
pblica podem detectar e se antecipar s atividades ilcitas.
A cidade de Nova Iorque saiu na frente e montou o New York City Real Time
Crime Center. Nele, as informaes so visualizadas em segundos em uma tela
de vdeo com altura de dois andares. Rapidamente, a foto do suspeito aparece
com detalhes, delitos anteriores, endereos com mapas. Os dados mais crticos
so enviados instantaneamente aos policiais na cena do delito e o que levava
vrios dias agora feito em poucos minutos.

2.7 - Financeiro
Big Data pode mudar o jogo do combate s fraudes. Quanto mais informaes
se tem nesses casos, mais eficientes so os sistemas. A velocidade da deteco,
ou mesmo sua previso, podem reduzir os impactos negativos ocasionados por
esse tipo de crime.
No modelo tradicional busca-se indivduos que se enquadrem em um
determinado padro. Esse modelo funciona no atacado, mas no capaz de
distinguir casos individuais.
Muitas vezes, as fraudes s so detectadas depois que j ocorreram e o
prejuzo tem que ser assumido alm, claro, da grande quantidade de casos de
falsos positivos que pioram sensivelmente a experincia dos usurios.

2.8 - Sentimento das multides


Como detectar o sentimento de grandes massas de indivduos a partir das
publicaes em redes sociais. Essa ferramenta permite que os cientistas sociais
identifiquem as tendncias das massas e atuem de maneira mais eficiente.

2.9 - Estratgias para Big Data


Este ainda o incio da era do Big Data e das descobertas do potencial desse
novo paradigma. As empresas esto comeando a entender e a explorar as
primeiras iniciativas do Big Data. A evoluo est acontecendo de forma rpida e
as perguntas deixaram de ser sobre o que Big Data para como medir o ROI
de projetos de Big Data ou o que necessrio fazer para o Big Data acontecer
na minha empresa.
A grande maioria dos projetos ainda provas de conceito, mas os principais
executivos j tm que ter uma viso do potencial do Big Data e definir
estratgias para sua adoo. A falta do conhecimento claro do Big Data pode
implicar em projetos mal elaborados com gastos excessivos em tecnologia sem a
preparao necessria da empresa para explorar o potencial aberto por ele. Por
outro lado, uma conduta excessivamente conservadora pode abrir espao para o
crescimento da concorrncia.
No se pode confundir as iniciativas de Big Data com as demais iniciativas de
TI. Toda a empresa, incluindo vrios de seus processos, ser diretamente
impactada pelo Big Data. Processos de negcio (agora orientados ao tempo
real), fontes de dados (internas e externas), arquitetura de dados e sistemas,
infraestrutura e suporte tecnolgico a novas tecnologias como o Hadoop e
bancos de dados NoSQL, estrutura organizacional e capacitao. As tomadas de
deciso deixaro de ser orientadas intuio para serem baseadas em fatos.
A abrangncia dos projetos de BI muito superior s da BI tradicional. No BI
eram feitas anlises de dados gerados por sistema operacionais enquanto no Big
Data explora-se fontes de dados externas como comentrios, tweets, sensores
etc. Se no BI questionava-se como havia sido a evoluo das vendas nos ltimos
anos, com o Big Data o contexto passa a incorporar a capacidade de gerar novas
perguntas como o que fazer para aumentar a fidelizao dos clientes?.

Big Data representa a inovao em duas dimenses distintas: a tecnologia e a


forma de tomar decises. No mbito da tecnologia, temos os bancos NoSQL, o
processamento massivamente paralelo e funcionalidades capazes de coletar,
tratar e analisar os dados no estruturados.
As tomadas de deciso automtica devem ser divididas entre as decises
operacionais que envolvem aes do dia a dia e aquelas de situaes que podem
sair do controle. No segundo caso, relevante a superviso humana das
decises tomadas. A informao possui caractersticas muito particulares:

Alto custo de criao

Baixssimo custo de produo de cpias

Economia de escala pra produo

Pode ser utilizada por vrias pessoas ao mesmo tempo

Substituio imperfeita

Efeito de rede

2.10 Passo a passo para o uso do Big Data


A primeira coisa a fazer para iniciar um projeto de Big Data identificar
quais dados podem ser utilizados pela empresa. H dados internos, que esto
em seus bancos de dados corporativos e arquivos digitais; dados que esto
disponveis em redes sociais, portais, pginas na Internet, alm de bases
especializadas que podem ser acessadas livremente e, por fim, dados adquiridos
por meio de pesquisas encomendadas.
Os dados provenientes de redes sociais so especialmente valiosos, pois no
carregam qualquer censura.
A segunda coisa a fazer identificar as oportunidades de explorar as
informaes disponveis. Deve-se comear pelos setores de alto potencial como
o marketing digital e uma vez bem sucedido copiar o modelo pelo resto da
organizao. um processo evolutivo que depende diretamente do grau de
maturidade de gesto da empresa.
O terceiro passo criar a infraestrutura organizacional necessria para
aproveitar os insights gerados pela explorao do Big Data. As novas
informaes s se justificam se provocarem reaes na empresa.

necessrio disseminar a cultura do Big Data e da importncia das anlises


nos gestores da organizao.
O desenho da infraestrutura tecnolgica para inserir o Big Data na empresa
deve contar com uma viso holstica e integrada dos modelos de dados que
permeia toda a organizao.
bom lembrar que a maioria dos projetos de Big Data comea pela equipe de
negcios, e no pela TI. A TI deve atuar de forma proativa em funo da
necessidade de integrao de tecnologias e acessos a inmeras bases de dados
corporativos e das questes de segurana.

Captulo 3 Tecnologia para o Big Data

3.1 Infraestrutura de tecnologia

A falta de compreenso do que o Big Data, seus potenciais e limitaes,


pode gerar riscos para o negcio. Um investimento excessivo nas tecnologias
sem uma preparao para empresa jogar dinheiro fora.
Por

outro

lado,

no

ainda

um

consenso

quanto

tecnologias

fundamentais que sustentam o Big Data e principalmente de como sair do


conceitual e partir para solues que agreguem valor para as empresas.
De uma maneira geral, as tecnologias relacionadas com o Big Data podem ser
analisadas sob dois pontos de vista: aquelas envolvidas com o analytics onde se
destacam o Hadoop e o MapReduce e as de infraestrutura com destaque para os
bancos de dados NoSQL (Not Only SQL).
Todas essas tecnologias buscam resolver o problema do tratamento das
quantidades gigantescas de dados que no conseguiam ser endereados pelas
tecnologias tradicionais.
A tecnologia para resolver esses problemas de formas otimizadas ainda tem
um longo caminho a percorrer para conseguir tratar rapidamente os imensos
volumes de dados do Big Data.
Para conseguir lidar com as questes de volume, variedade e velocidade do
Big Data, surgem novos modelos como os bancos de dados desenhados para
tratar imensos volumes de dados no estruturados. Os bancos NoSQL dividemse segundo o modelo adotado da seguinte forma:

Modelos de sistemas colunares: Google Big Table

Modelo Key/Value: Amazon DynamoDB

Modelo document database: IBM Lotus Notes e MongoDB

Modelo baseado em grafos: No4j

A deciso do tipo de banco de dados a ser utilizado est intimamente


relacionada s necessidades especficas de cada projeto. bom lembrar tambm
que possvel desenhar solues que utilizam mais de um desses modelos
tambm.
Uma vez definida a infraestrutura de base, necessrio ter ateno aos
componentes de analytics, afinal de contas essa etapa que transforma os
dados em algo de valor para o negcio.
Big Data Analytics no significa os tradicionais sistemas de BI que j existem.
O stream processing permite tratamento em tempo real dos dados medida
que so criados.
As tecnologias de visualizao esto evoluindo constantemente criando
modelos inovadores para visualizar diferentes tipos de dados.

3.2 - Hadoop
O Hadoop conhecido como o corao open source do Big Data. Criado pelo
Yahoo em 2005, inspirado Google File System, GFS e no paradigma de
programao MapReduce, que essencialmente divide o trabalho em tarefas como
um mapeador (mapper) e um resumidor (reducer) que manipulam dados
distribudos em um cluster de servidores usados de forma massivamente
paralela.
Cada vez mais empresas que precisam tratar volumes de dados no
estruturados, tendo desenvolvido um ecossistema ao seu redor.
O que o Hadoop? Na prtica, a combinao de dois projetos separados: o
Hadoop MapReduce (HMR), que um framework para processamento paralelo e
o Hadoop Distributed File System (HDFS). O HMR um spinoff do MapReduce,
software que o Google usa para acelerar as pesquisas em sua mquina de
busca. O HDFS um sistema de arquivos distribudos otimizado para atuar com
dados no estruturados. Por fim, h o Hadoop Common, um conjunto de
bibliotecas e utilitrios que suportam os projetos Hadoop.
O HDFS o sistema de armazenamento de dados do Hadoop. Como na
maioria dos sistemas de arquivos, os dados so divididos em blocos distribudos
em diversos servidores. A primeira caracterstica marcante do HDFS

justamente o tamanho desses blocos, 64 megabytes contra 4 a 32 kbytes da


maioria dos bancos de dados comuns.
A distribuio dos blocos de dados nos diversos servidores acelera
substancialmente o processamento dos dados uma vez que no lugar de uma
pesquisa sequencial a busca ocorre em paralelo.
Outra caracterstica marcante o uso de servidores e discos de baixo custo
valendo-se do fato de o MTBF (Mean Time Between Failure) dos equipamentos
do cluster no ser muito alto. O prprio Hadoop garante a disponibilidade do
acesso. Para isso, cada bloco copiado em dois outros lugares diferentes de
modo

que se

um ou

dois

servidores

falharem

terceiro

garantir

disponibilidade dos dados.

Figura 6 - O Hadoop Distributed File System

Um servidor especial chamado NameNode fica responsvel pela lgica de


mapeamento dos blocos. Para ter o desempenho otimizado toda a informao do
NameNode mantida em memria, porm por ser o responsvel por todo o
mapeamento ele se torna um SPOF (Single Point Of Failure) deixando todo o
sistema a merc de uma falha sua. Por esse motivo, esse servidor costuma ser
um servidor de alta disponibilidade com uma slida estratgia de backup e

restaurao j que a perda do NameNode significa a perda de todos os dados


armazenados.
As verses mais recentes do Hadoop j implementam um BackupNode que
ocupa o lugar do NameNode em caso de falha.
O MapReduce a alma do Hadoop, seu paradigma de programao
possibilita a escalabilidade massivamente paralela em centenas ou milhares de
servidores. As duas tarefas implementadas pelo paradigma so o mapeamento
dos dados e o resumo dos dados.
A tarefa de mapeamento acessa um conjunto de dados e os converte em
outro conjunto onde os elementos individuais so quebrados em tuplas
(chave/valor).
A tarefa de resumo pega o resultado do mapeamento e combina as tuplas
em um grupo menor para obter o resultado.

Figura 7 - O Hadoop MapReduce

Por ser um projeto Open Source com licenciamento da Apache, o Hadoop


facilita a criao de um ecossistema de negcios baseados em distribuies
especficas.
O surgimento de servios na nuvem permite s empresas tratarem dados
massivos sem que seja necessrio adquirir servidores fsicos.

Empresas como Yahoo, Facebook, Cloudera, IBM e outras contribuem com a


comunidade Apache no desenvolvimento do cdigo base do Hadoop. Vrias
distribuies do Hadoop surgiram com implementaes distintas de diversos
pacotes da especificao proposta pelo Hadoop num modelo muito similar ao
existente no universo Linux.
Camada Hadoop

Subprojeto

Modelagem e desenvolvimento

MapReduce
Pig
Mahout

Armazenamento e gesto de dados

HDFS
Hbase
Cassandra

Data Warehousing e queries

Hive
Sqoop

Coleta, agregao e anlise de dados

Chukwa
Flume

Metadados, tabela e esquemas

HCatalog

Cluster management, job, scheduling e Zookeeper


workflow

Oozie
Ambari

Serializao de dados

Avro

Figura 8 - Camadas funcionais do Hadoop e seus subprojetos

Dada a quantidade de implementaes importante analisar qual se


apresenta como mais adequada ao seu projeto:

Oferta atual: como a distribuio se apresenta no momento, arquitetura,


funcionalidades etc

Estratgia: qual a importncia do projeto no portflio da empresa e qual a


estratgia da empresa para ele

Presena no mercado: qual o market share e o ecossistema criado ao


redor da distribuio

Figura 9 - Quadrante Mgico Gartner para Big Data 2016

Figura 10 - Dados para posicionamento das solues e Big Data (Gartner Group)

3.3 - MapReduce
O

MapReduce

um

paradigma

de

programao

que

permite

processamento de dados massivos por meio de um algoritmo paralelo e


distribudo.
A

escalabilidade

horizontal

oferecida

por

esse

modelo

permite

que

virtualmente qualquer tamanho de dados possa ser processado em um cluster


grande o suficiente.
O uso dessa abordagem se justifica pelo fato de o aumento da capacidade
dos discos rgidos e outros elementos de armazenamento no terem sido
acompanhados por um crescimento compatvel na velocidade de leitura e
escrita. Isso fez com que o tempo necessrio para acessar todos os dados

armazenados em um dispositivo atual ser, aproximadamente, 30 vezes maior do


que o necessrio para ler todo um dispositivo de 20 anos atrs.
A soluo direta para esse problema seria dividir os pontos de leitura e
escrita em diversos discos distintos e com isso reduzir sensivelmente o tempo
gasto nessa tarefa. Esse cenrio, no entanto, aumenta, na mesma proporo da
velocidade de leitura, a probabilidade de que ocorra algum erro de hardware.
Alm disso, torna-se necessrio combinar os resultados obtidos nos diversos
discos para se realizar a anlise final.
O MapReduce traz um algoritmo baseado em chaves e valores capaz de
resolver esses problemas e tirar proveito do aumento da velocidade de leitura e
escrita.

3.4 Hadoop e o MapReduce


Foi a partir do Hadoop que o MapReduce se tornou uma soluo comercial
popular para o paradigma de programao paralela.
Juntamente com o Hadoop Distributed File System (HDFS), o MapReduce
forma o core do Hadoop, onde responsvel pelo processamento dos dados.
Uma caracterstica importante da qual o MapReduce tira proveito e a
caracterstica inerente de paralelismo dos dados, isso quer dizer que na maioria
dos casos possvel dividir uma grande entrada de dados em diversos
subconjuntos que podem ser processados isoladamente para que s ento os
diversos resultados sejam combinados.
Os desenvolvedores que utilizam o MapReduce no Hadoop se aproveitam do
fato de no terem de se preocupar em garantir a execuo dos processos, pois
isso fica a cargo do prprio framework.

3.5 Tipos de Dados


A entrada do algoritmo MapReduce vem, geralmente, em arquivos .csv com
valores representados por colunas mas fundamentalmente ele capaz de ler
qualquer fluxo de dados que possa ser transformado em pares chave/valor.

3.6 Fases do MapReduce


Como o prprio nome indica, o MapReduce divide o processamento em dois
momentos:

Map: responsvel pelo processamento primrio dos dados de entrada e


envio desses dados para a fase de reduo com ENTRADAS

Reduce: agrupamento do resultado final nos arquivos de SAIDA

Todo o escalonamento necessrio execuo dessas tarefas realizado


internamente pelo framework do Hadoop.

Figura 11 - Fases do MapReduce para uma operao de contagem de palavras

Figura 12 - Nuvem de Tags

Figura 13 Custergramas

Figura 14 - History Flow

Figura 15 - Spatial Information Flow

necessrio tambm falar da computao em nuvem, pois ela o grande


impulsionador e democratizador do Big Data. Nuvens pblicas so capazes de
suportar imensos volumes de dados e a elasticidade permite adicionarmos ou
removermos servidores de acordo com a nossa demanda.
A resilincia e a disponibilidade tambm so cruciais quando se fala de
processamento de dados em tempo real, principalmente nos casos em que as
aes so tomadas tambm em tempo real.

3.4 Spark
O Spark um framework para processamento de Big Data construdo com
foco em velocidade, facilidade de uso e anlises sofisticadas. Est sendo
desenvolvido desde 2009 pelo AMPLab da Universidade de Califrnia em
Berkeley e em 2010 seu cdigo foi aberto como projeto da fundao Apache.
O Spark tem muitas vantagens se comparado as outras tecnologias de Big
Data e do paradigma MapReduce, como o Hadoop e o Storm.
Inicialmente,

Spark

oferece

um

framework

unificado

de

fcil

compreenso para gerenciar e processar Big Data com uma variedade de


conjuntos de dados de diversas naturezas (por exemplo: texto, grafos etc), bem
como de diferentes origens (batch ou streaming de dados em tempo real).
O Spark permite que aplicaes em clusters Hadoop executem at 100 vezes
mais rpido em memria e at dez vezes mais rpidas em disco, desenvolver
rapidamente aplicaes em Java, Scala ou Python. Alm disso, vem com um
conjunto integrado de mais de 80 operadores de alto nvel e pode ser usado de
forma interativa para consultar dados diretamente do console.
Alm das operaes de Map/Reduce, suporta consultas SQL, streaming de
dados, aprendizado de mquina e processamento de grafos. Desenvolvedores
podem usar esses recursos no modo stand-alone ou combin-los em um nico
pipeline.
O Hadoop j existe h mais de 10 anos e tem provado ser a melhor soluo
para o processamento de grandes conjuntos de dados. O MapReduce uma
tima soluo para clculos de nico processamento, mas no muito eficiente
para os casos de uso que requerem clculos e algoritmos com vrias execues.
Isso porque cada etapa no fluxo de processamento tem apenas uma fase Map e
uma fase Reduce e, desse modo necessrio converter qualquer caso de uso
para o padro MapReduce para chegar a uma soluo.
Os dados de sada do processamento de cada etapa devem ser armazenados
no sistema de arquivo distribudos antes do passo seguinte comear. Assim, esta
abordagem tende a ser lenta devido replicao e armazenamento em disco.
Alm disso, as solues Hadoop incluem tipicamente clusters que so difceis de
configurar e gerenciar, alm de precisar da integrao de vrias ferramentas

para diferentes casos de uso de Big Data (como o Mahout para Aprendizado de
Mquina e o Storm para o processamento de streaming).
Nesse cenrio, caso seja necessrio fazer algo complexo, seria preciso
encadear uma srie de jobs de MapReduce e execut-los em sequncia. Cada
um desses jobs tero alta latncia e no poder comear at que o anterior
tenha terminado.
O Spark permite que os programadores desenvolvem pipelines compostos
por vrias etapas complexas usando grafos direcionais acclicos. Alm disso,
suporta o compartilhamento de dados da memria atravs desses grafos, de
modo que os diferentes jobs possam trabalhar com os mesmos dados.
O Spark usa a infraestrutura do Hadoop Distributed File System (HDFS), mas
melhora suas funcionalidades e fornece ferramentas adicionais. Por exemplo,
permite a implantao de aplicativos em cluster Hadoop v1 (com SIMR - Spark
Inside MapReduce), ou em Hadoop v2 com YARN ou com Apache Mesos.
Devemos olhar para o Spark como uma alternativa para MapReduce do
Hadoop em vez de um simples substituto, mas como uma soluo abrangente e
unificada para gerenciar diferentes casos de uso da Big Data.
O Spark estende o MapReduce evitando mover os dados durante seu
processamento, atravs de recursos como armazenamento de dados em
memoria e processamento prximo ao tempo real, o desempenho pode ser
vrias vezes mais rpido do que outras tecnologias de Big Data.
Tambm h suporte para validao sob demanda de consultas para Big
Data, o que ajuda com a otimizao do fluxo de processamento de dados e
fornece uma API de mais alto nvel para melhorar a produtividade do
desenvolvedor e um modelo consistente para o arquiteto de solues Big Data.
O Spark detm resultados intermedirios na memria, em vez de escrev-los
no disco, o que muito til quando se precisa processar o mesmo conjuntos de
dados muitas vezes. Seu projeto teve por objetivo torn-lo um mecanismo de
execuo que funciona tanto na memria como em disco e, por isso, o Spark
executa operaes em disco quando os dados no cabem mais na memria.
Assim, possvel us-lo para o processamento de conjuntos de dados maiores
que a memria agregada em um cluster.

O Spark armazenar a maior quantidade possvel de dados na memria e,


em seguida, ir persisti-los em disco. Cabe ao arquiteto do sistema olhar para os
seus dados e casos de uso para avaliar os requisitos de memria. Com esse
mecanismo de armazenamento de dados em memria, o uso do Spark traz
vantagens de desempenho.
Outras caractersticas do Spark:

Suporta mais do que apenas as funes de Map e Reduce;

Otimiza o uso de operadores de grafos arbitrrios;

Avaliao sob demanda de consultas de Big Data contribui com a


otimizao do fluxo global do processamento de dados;

Fornece APIs concisas e consistentes em Scala, Java e Python;

Oferece shell interativo para Scala e Python. O shell ainda no est


disponvel em Java.

O Spark escrito na linguagem Scala e executa em uma mquina virtual


Java. Atualmente, suporta as seguintes linguagens para o desenvolvimento de
aplicativos:

Scala

Java

Python

Clojure

Alm da API do Spark, existem bibliotecas adicionais que fazem parte do seu
ecossistema e fornecem capacidades adicionais para as reas de anlise de Big
Data e aprendizado de mquina. Estas bibliotecas incluem:

Spark Streaming:
O Spark Streaming pode ser usado para processar dados de streaming em
tempo real baseado na computao de microbatch. Para isso utilizado o
DStream que basicamente uma srie de RDD para processar os dados
em tempo real;

Spark SQL:

Spark SQL fornece a capacidade de expor os conjuntos de dados Spark


atravs de uma API JDBC. Isso permite executar consultas no estilo SQL sobre

esses dados usando ferramentas tradicionais de BI e de visualizao. Alm


disso, tambm permite que os usurios usem ETL para extrair seus dados em
diferentes formatos (como JSON, Parquet, ou um banco de dados), transformlos e exp-los para consultas ad-hoc.
Spark MLlib:
MLlib a biblioteca de aprendizado de mquina do Spark, que consiste em
algoritmos

de

aprendizagem,

incluindo

classificao,

regresso,

clustering, filtragem colaborativa e reduo de dimensionalidade;


Spark GraphX:
GraphX uma nova API do Spark para grafos e computao paralela. Em
alto nvel, o GraphX estende o Spark RDD para grafos. Para apoiar a
computao de grafos, o GraphX expe um conjunto de operadores
fundamentais (por exemplo, subgrafos e vrtices adjacentes), bem como
uma variante optimizada do Pregel. Alm disso, o GraphX inclui uma
crescente coleo de algoritmos para simplificar tarefas de anlise de
grafos.
Alm destas bibliotecas, outros componentes completam o ecossistema do
Spark, como o BlinkDB e o Tachyon.
O BlinkDB uma engine SQL para consultas por amostragem e pode ser
usado para a execuo de consultas interativas em grandes volumes de dados.
Permite que os usurios equilibrem a preciso de consulta com o tempo de
resposta. Alm disso, o BlinkDB funciona em grandes conjuntos de dados,
atravs de amostragem de dados e apresentao de resultados anotados com os
valores de erros.
O Tachyon um sistema de arquivos distribudos em memria que permite o
compartilhamento

de

arquivos

de

forma

confivel e

rpida

atravs

de

frameworks de cluster, como Spark e MapReduce. Tambm armazena em cache


os arquivos que esto sendo trabalhados, permitindo que a existncia de
diferentes processamentos / consultas e enquadramentos para acessar arquivos
em cache na velocidade de memria.

Finalmente, h tambm adaptadores de integrao com outros produtos,


como Cassandra (Cassandra Spark Connector) e R (SparkR). Com o Cassandra
Connector, possvel usar o Spark para acessar dados armazenados no banco
de dados Cassandra e realizar com o R anlises estatsticas.
O diagrama a seguir mostra como as diferentes bibliotecas do ecossistema
Spark esto relacionados uns com os outros.

Figura 16 - Bibliotecas do framework Spark

A arquitetura Spark inclui os seguintes componentes:

Armazenamento de dados

API

Framework de gerenciamento

Vejamos cada um desses componentes em detalhes.


Armazenamento de dados:
O Spark usa sistema de arquivos HDFS para armazenamento de dados.
Funciona com qualquer fonte de dados compatvel com Hadoop, incluindo o
prprio HDFS, HBase, Cassandra etc.

API
A API permite que os desenvolvedores de aplicaes criem aplicaes
baseadas no Spark usando uma interface de API padro para Scala, Java e
Python.
Gesto de recursos
O Spark pode ser implantado como um servidor autnomo ou em uma
estrutura de computao distribuda como o Mesos ou o YARN. Na Figura 2,
apresentam-se os componentes da arquitetura Spark.

Figura 17 - Arquitetura do Spark

O conjunto de dados resilientes e distribudos (base do trabalho de pesquisa


de Matei Zaharia) ou RDD (Resilient Distributed Datasets) o conceito central do
framework Spark. Imagine o RDD como uma tabela do banco de dados que pode
guardar qualquer tipo de dado. O Spark armazena os dados do RDD em
diferentes parties. Isso ajuda a reorganizao computacional e a otimizao
no processamento dos dados.

Os RDDs so imutveis. Ainda que aparentemente seja possvel modificar um


RDD com uma transformao, na verdade o resultado dessa transformao um
novo RDD, sendo que o original permanece intocvel. O RDD suporta dois tipos
de operaes:
Transformao: No retornam um nico valor, mas um novo RDD. Nada
avaliado quando a funo de transformao chamada, ela apenas recebe um
RDD e retorna um novo RDD. Algumas das funes de transformao so map,
filter, flatMap, groupByKey, reduceByKey, aggregateByKey, pipe e coalesce.
Ao: Esta operao avalia e retorna um novo valor. Quando uma funo de
ao chamado em um objeto RDD, todas as consultas de processamento de
dados so computadas e o valor retornado. Algumas das operaes de ao
so reduce, collect, count, first, take, countByKey e foreach.

3.5 Stream Processing


Se no Hadoop utilizamos o processamento paralelo para analisarmos imensos
volumes de dados que esto armazenados em centenas ou milhares de
servidores, no stream processing esses dados so analisados medida que so
criados. a analise dos dados em movimento. O fluxo de dados atravessa as
regras de negcio e as aes so tomadas em tempo real.
Ao invs de se disparar queries em uma base de dados so os dados que
atravessam as queries. Linhas de produo, controle de fraudes de carto de
crdito e controle de trfego so apenas algumas das possveis aplicaes.
A quantidade de dados disponvel em tempo real vem crescendo rapidamente
e do ponto de vista dos clientes as aplicaes desenvolvidas nesse paradigmas
buscam tornar seus negcios mais eficientes diminuindo o desperdcio de
materiais e a energia.
Obviamente novas oportunidades se abrem nesse cenrio utilizando os dados
disponveis por sensores de localizao, RFID, GPS, celulares, etc.
Espera-se que o stream computing se dissemine em diversos setores da
economia.

3.6 Visualizao
A visualizao dos dados busca potencializar a apropriao da informao
pelo usurio por meio de recursos grficos. A visualizao de dados uma rea
onde a computao grfica intensamente utilizada, a fim de apresentar as
informaes de maneira que os usurios possam extrair o mximo de valor
delas.
As tcnicas de visualizao tm evoludo bastante, j que a natureza dos
dados no Big Data demanda solues criativas para evidenciar o surgimento dos
padres at ento irreconhecveis. Cada tcnica se adequa a um tipo especfico
de dado e a uma demanda especfica dos usurios. Ainda assim, possvel listar
algumas das mais utilizadas.
Nuvens de tags (Tag Clouds): uma lista visual ponderada, onde as palavras
que aparecem com maior frequncia aparecem de forma destacada.
Clustergramas: utilizada na visualizao de anlises de clusters (cluster
analysis) ou agrupamentos. Atravs desse tipo de anlise agrupa-se objetos em
grupos baseando-se em sua semelhana de acordo com alguma funo de
distncia estatstica. A classificao deve ser realizada de maneira automtica,
sem que seja necessria a interveno do usurio e sem que sejam consideradas
caractersticas previamente nem grupos de teste.
History Flow: mostram a evoluo de um documento medida que ele seja
modificado pelos contribuintes. O tempo marcado no eixo horizontal e as
contribuies no eixo vertical. Nesse modelo fica evidenciado o autor da
colaborao bem como a sua grandeza.
Spatial Information Flow: traz uma perspectiva espacial de informaes
especficas
A necessidade de ser extremamente criativo na visualizao dos dados abre
espao para todo um ecossistema de empresas focadas na criao de novas
formas de se visualizar dados. Esse cenrio especialmente adequado criao

de startups inovadoras focadas na criao de ferramentas visuais bem diferentes


das atualmente oferecidas pelas solues de BI.
Uma forma bastante inovadora de se relacionar com os sistemas so os
sistemas de interface de voz. Nesses sistemas o usurio faz perguntas em
linguagem natural, literalmente conversando com os computadores e recebe o
retorno tambm em sistemas de viva-voz.
Apesar de parecer um cenrio futurstico, as iniciativas nesse sentido j
apresentam resultados bem sucedidos como o Siri da Apple e o IBM Watson, que
conseguiu sagrar-se campeo do programa Jeopardy na TV dos Estados Unidos.

Captulo 4 Capacitao
O Big Data abre oportunidades para as reas de TI e negcios das empresas
se tornarem ainda mais relevantes.
Muitas vezes, os CEOs mostram-se insatisfeitos com suas equipes de TI por
entenderem que h um grande valor a ser explorado em suas bases e interaes
com usurios mas as equipes de TI no conseguem extrair o valor de l.
No mundo inteiro a quantidade disponvel de profissionais muito inferior
demanda do mercado. No Brasil isso ainda mais evidente, dadas as
caractersticas do mercado e o momento inicial das iniciativas de Big Data.
Essa escassez pode ser o maior entrave na utilizao eficiente de solues
de Big Data, pois das 4,4 milhes de vagas que sero disponibilizadas em 2015
menos de 30% sero preenchidos pelos profissionais atualmente disponveis.
Menos de 10% das organizaes acredita ter uma equipe adequada ao Big Data
e 75% dos professores acreditam que o que ensinado hoje nas escolas est
muito distante do que os profissionais de Big Data devem saber.
A visualizao dos dados busca potencializar a apropriao da informao
pelo usurio, por meio dessa demanda abre espao, para a criao de uma nova
carreira, a do cientista de dados, um profissional criativo, com formao em
Cincia da Computao e matemtica e um profundo conhecimento do negcio.
Segundo um VP de Produtos Big Data da IBM, o Data Scientist algum que
curioso e capaz de analisar os dados para detectar tendncias.
interessante perceber que essa criatividade, muitas vezes, d espao para
a entrada de profissionais com perfil bastante diferente daqueles que ocupavam
tradicionalmente esses cargos. Os decifradores de cdigos de comunicao dos
alemes na segunda guerra mundial eram essencialmente matemticos e
linguistas que eram capazes de pensar fora da caixa.
A carreira de cientista de dados tem impacto direto na gesto das empresas
que deve abandonar as decises baseadas em suposies para focar naquelas
orientadas a fatos.

O foco das anlises est principalmente nos dados em tempo real ou com
baixa latncia o que difere essa funo daquela exercida pelos analistas de BI.
So conhecimentos fundamentais do cientista de dados:

Estatstica

Matemtica

Entendimento profundo do negcio

Tecnologias de Big Data

Hadoop

Pig

Modelagem de dados no estruturados

Bancos de dados NoSQL

Conhecedor profundo do negcio em que atua, capaz de formular questes


adequadas, analisar as respostas e tomar decises estratgicas e tticas
baseando-se nela.
Seu foco est na alavancagem de novos negcios que aumentem a
lucratividade da empresa.
So os responsveis pela infraestrutura e suporte tcnico ao Big Data. Devem
ser capazes de gerenciar clusters de alto desempenho, plataforma Hadoop e
pensar em volumes de dados significativamente grandes e variados.
Posio

ainda

desconhecida

na

maioria

das

empresas,

CDO

impulsionador de valor para organizao atravs da anlise avanada de dados


gerando vantagens competitivas.
Esse profissional ocupa uma posio executiva de alto nvel, C-Level, nas
empresas, mas ainda enfrente a falta de compreenso do impacto estratgico e
do valor do Big Data para obter vantagem competitiva e a falta de capacitao
de pessoal para exercer essa funo no quadro diretor da empresa e no mercado
e com a cultura de no compartilhamento de dados nas empresas.
Muitas vezes, o CIO assume as tarefas do CDO pelo fato de a empresa
entender que Big Data apenas mais uma tecnologia. Na prtica o CDO deve
se reportar diretamente ao CEO e no ao CIO como acontece em muitos casos.

Ele o responsvel pela ligao da TI com negcios e por gerar valor ao


explorar dados internos e externos.

Referncias
MINELLI, Michael; CHAMBERS, Michele; DHIRAJ Ambiga. Big Data, Big Analytics:
Emerging Business Intelligence Analytic Trends for Todays Business. Wiley CIO,
2013.
URWITZ, Judith; NUGENT, Alan, HALPER, Fern, KAUFMAN, Marcia. Big Data for
Dummies. John Wiley & Sons, Inc, 2013.