You are on page 1of 3

Entendendo melhor o conceito de Big Data - Parte I I

No artigo anterior desta srie sobre a tecnologia Big Data comentei um pouco sobre como a
evoluo da tecnologia permitiu (e obrigou) as empresas a acumular grande quantidades de
dados. Agora neste pretendo falar de algumas aplicaes desse conceito.
Reduo no tempo de busca das informaes
Existem diversos tipos de informaes que uma empresa precisa armazenar e algumas dessas
informaes precisam ser acessadas de maneira mais rpidas dos que outras. As informaes
de cobrana em aberto devem ser acessadas em tempo real pela rea financeira (e por isso
ficam em um banco de dados), j os backups antigos dos notebooks podem ser armazenados
em fita magntica e - se forem necessrio - vai levar algumas horas para acessa-los.
Dentro das empresas se cria uma hierarquia de dados, aonde os dados menos acessados so
"empurrados" para armazenamentos mais baratos e lentos. Nesse conceito de hierarquia de
dados, quando maior a quantidade de dados, menos importantes eles so e assim mais lento
pode ser seu acesso.
Acontece que cada vez mais as empresas precisam fazer anlise de grandes volumes de dados
em tempo real e isso cria uma contradio dentro do conceito de "quanto maior mais lento".
Por exemplo, o diretor comercial de uma cadeia de lojas de roupas pode iniciar um estudo de
lucratividade onde ele pretende simular mudanas nos preos de milhares de produtos e
simular o efeito nas vendas. Para isso ele vai verificar qual seria o impacto de aumentos ou
redues de preos, sobre as vendas dos ltimos meses. Cada anlise precisa percorrer os
milhes de transaes (vendas, devolues, trocas, etc.) e no pode tomar um tempo muito
longo, pois necessrio repetir essa simulao para cada um dos produtos. Se cada simulao
tomar mais que alguns segundos, o tempo total para analisar milhares de produtos se torna
invivel.
Assim algumas tecnologias de Big Data so voltadas a acelerar o acesso grandes bancos de
dados. Um exemplo o armazenamento em memria onde os dados so jogados na memria,
exigindo servidores com centenas de gigabytes de memria (lembrando, o computador que
voc est usando agora deve ter entre 4 e 8 gigabytes de memria), mas isso j assunto para o
prximo artigo.

Alta confiabilidade
Outro problema que as empresas precisam revolver a confiabilidade desses dados. No basta
mais armazenar em dois discos dentro do mesmo datacenter, hoje as empresas querem se
previnir ainda mais: elas querem garantir que os dados estaro a salvo mesmo se houver perda
total de um data center ou mesmo no caso da perda de vrios data centers.
Alm disso essa sincronizao muitas vezes precisa ser feita em tempo real: quando ocorre
uma transao essa informao precisa ser imediatamente replicada entre todos os data
centers.
Assim tecnologias de armazenamento distribuido como o Hadoop permite com que grande
blocos de dados sejam replicados e acessados de maneira eficiente.
Segurana dos dados
Um ponto importante tambm a forma como esses dados so protegidos. Quanto mais
informao existir e quanto mais essas informaes estiverem distribudas, mas dficil
garantir a sua segurana e confiabilidade. A razo bastante bvia: se as informaes
estiverem distribudas em vrias localidades precisamos garantir a segurana em cada um
desses pontos.
Por isso criptografia dos dados tambm passa a ser um ponto importante, assim como
controle de acesso, registro das operaes realizadas (ai vo mais dados para o Big Data), etc.
Alm disso mecanismos como criptografia atrasam o acesso s informaes, assim
aceleradores de criptografia se tornam necessrios dentros dos sistemas de armazenamento.
I/O e escalonamento dos dados
Um dos principais fatores que afetam a performance no acesso aos dados a capacidade do
sistema de receber (I) e enviar (O) dados. O uso de sistemas de armazenamento mais rpidos
(por exemplo, trocar discos SATA por SAS) ajudam, porm esto limitados pela tecnologia
existente e por questes de custo.
O uso de sistemas de armazenamento paralelos, aonde cada pedao da informao
armazenada em uma sistema diferente, permite multiplicarmos a performance no
recebimento e envio de informaes.
O memos vale para a questo do escolonamento, ou seja, flexibilidade na expanso da
capacidade de armazenamento. Com o uso de um armazenamento distribuido em vrios
equipamentos consigo facilmente aumentar a minha capacidade, bastando acrescentar mais
equipamentos.

Gerenciamento dos dados


Um dos problemas em se distribuir o armazenamento o seu gerenciamento. Se os dados
esto distribuidos em vrios equipamentos localizados em vrios sites, como encontrar os
dados requisitados? Como garantir que nenhum dado tenha ficado sem armazenamento
apropriado? Um ser humano no consegue fazer isso manualmente.
Os sistemas de Big Data precisam possuir um mecanismo centralizado de gesto desses dados
que seja inteligente.
At o prximo artigo. Me acompanhe no Twitter: http://twitter.com/mlrodrig

You might also like