Professional Documents
Culture Documents
2
Big Data Definio
Definio da UNECE 2013
Big Data are data sources that can be generally described as:
high volume, velocity and variety of data that demand cost - effective,
innovative forms of processing for enhanced insight and decision
making.
Caractersticas
volume de dados
velocidade (capacidade de atualizao de informaes)
variedade de informaes
informao no estruturada
informao dinmica e capturada em eventos
Big Data Caractersticas
Volume (massive data)
Resultante do avano tecnolgico de diferentes formas de
gerao de dados e da possibilidade de armazen-los
Velocidade
Os eventos so medidos em tempo real ou quase (com
intervalos muito pequenos de tempo)
Variedade
Complexidade de formatos e dados no estruturados:
documentos, imagens, vdeos, mensagens
Big Data Caractersticas
Variabilidade ou Volatilidade
Inconsistncia/instabilidade dos dados ao logo do tempo
e problemas de reprodutibilidade
Ex. algoritmos de busca Google Flu Trend
Veracidade
Necessidade de avaliao da acurcia dos dados
Complexidade
Necessidade de integrao de vrias bases de dados
Big Data Fontes de Dados
Desafios
Construo e manuteno de cadastros
Aumento gradual da no resposta (fenmeno observado
em muitos pases e por vrios INEs)
Dificuldades na mensurao de erros de medida
Custo das atividades de pesquisas
Necessidade de reduo do intervalo de tempo entre a
coleta e a publicao dos resultados
Big Data
Vantagens
Possibilidade de capturar dados digitalmente
Custo de obteno dos dados pode ser muito menor do
que em pesquisas
Dados detalhados sobre o meio ambiente, indivduos e
empresas
Dados sobre redes de indivduos ou empresas e suas
conexes
Dados coletados em tempo real
Possibilidade de estudar o que ocorre na cauda das
distribuies
Big Data
Desafios
Uma varivel de interesse em cada base de dados com
poucas covariveis auxiliares
Vis de seletividade e participao voluntria
Volatilidade ou falta de estabilidade (conceitos e definies;
mbito e escopo)
Impossibilidade de delimitao da populao alvo e populao
pesquisada
Questes associadas privacidade das informaes
Problemas de acesso e governana (bancos de dados
proprietrios)
Tamanho no documento (mais dados no so
necessariamente melhores dados)
Big Data
Desafios
Questes ticas no uso do dado e na combinao de
informaes de diferentes fontes de dados
Falta de arcabouo inferencial
Desenvolvimento de metodologia estatstica para lidar
com enormes volumes de dados
Pesquisas quantitativas no cenrio
atual de evoluo do Big Data
A utilizao de dados de fontes alternativas pode ser parte
da soluo para os desafios colocados para produo de
Estatsticas Oficiais
Dados de
velocidade da
Internet
Medidas de velocidade
Medidas de da Internet pelo SIMET
velocidade da empresas e
Internet pelo estabelecimentos
SIMET -
indivduos Fonte: NIC.br
Big Data e os desafios para a
Produo de Estatsticas Oficiais
Quais mtodos estatsticos?
Big Data e os desafios para a
Produo de Estatsticas Oficiais
Quais mtodos estatsticos?
Amostragem
Mtodos de replicao para anlise e estimao de
medidas
Bag of Little Bootstraps
(http://web.cs.ucla.edu/~ameet/blb_icml2012_final.pdf)
Modelos de Superpopulao
Mtodos para estimao na presena de dados faltantes
(hipteses MAR)
Mtodos de calibrao e imputao
Big Data e os desafios para a
Produo de Estatsticas Oficiais
Quais mtodos estatsticos?
Imagens de satlite
informao estruturada
velocidade de atualizao moderada (uma vez ao dia,
por exemplo)
grande volume de dados
pequena variedade de informao
Experincias CETIC.br
http://simet.nic.br/
Aplicaes utilizando Big Data
SIMET - Sistema de Medio de Trfego Internet
Servidor de Medio
Rede
Rede
Interna
Autnoma
(intranet)
37
SIMET - Sistema de Medio de Trfego Internet
Medidas:
Velocidade de Download TCP
Velocidade de Upload TCP
Velocidade de Download UDP
Velocidade de Upload UDP
Latncia aferida durante a medio
Jitter aferido durante a medio de upload
Jitter aferido durante a medio de download
REGISTROS
www.cetic.br
alexandre@nic.br @ComuNICbr Facebook.com/nic.br