You are on page 1of 48

Escola Nacional de Cincias Estatsticas

Seminrio de Metodologia IBGE 2015

Big Data em Estatsticas Oficiais


Denise Britz do N. Silva (ENCE/IBGE)
Marcelo Pitta (Nic.br)

Rio de Janeiro 04 de dezembro de 2015


Motivao
Constantes desafios para a produo, anlise e
disseminao de Estatsticas Oficiais
Holt, D.T. (2007).The official statistics Olympics
challenge: Wider, deeper, quicker, better, cheaper.
The American Statistician, 61(1, February), 1-8.
Debate atual sobre Data Revolution
Inovaes tecnolgicas
Transformaes da sociedade

2
Big Data Definio
Definio da UNECE 2013
Big Data are data sources that can be generally described as:
high volume, velocity and variety of data that demand cost - effective,
innovative forms of processing for enhanced insight and decision
making.

Caractersticas
volume de dados
velocidade (capacidade de atualizao de informaes)
variedade de informaes
informao no estruturada
informao dinmica e capturada em eventos
Big Data Caractersticas
Volume (massive data)
Resultante do avano tecnolgico de diferentes formas de
gerao de dados e da possibilidade de armazen-los

Velocidade
Os eventos so medidos em tempo real ou quase (com
intervalos muito pequenos de tempo)

Variedade
Complexidade de formatos e dados no estruturados:
documentos, imagens, vdeos, mensagens
Big Data Caractersticas
Variabilidade ou Volatilidade
Inconsistncia/instabilidade dos dados ao logo do tempo
e problemas de reprodutibilidade
Ex. algoritmos de busca Google Flu Trend

Veracidade
Necessidade de avaliao da acurcia dos dados

Complexidade
Necessidade de integrao de vrias bases de dados
Big Data Fontes de Dados

Dados gerados por mquinas tipo medidores e


sensores (imagens de satlite, por exemplo)
Data scraping
Internet e redes sociais
Dispositivos mveis e GPS
Transaes comerciais e dados financeiros
Dados administrativos
Em breve... Internet das Coisas
Big Data e Estatsticas Oficiais

Estatsticas Oficiais: baseadas em dados coletados


de forma estruturada e organizada, sobre uma
populao bem definida, com arcabouo inferencial e
metodologia reprodutvel

Big Data: conjunto de dados coletados de forma


auxiliar e no estruturada com o objetivo de registrar
um processo, sobre uma populao no definida, sem
arcabouo inferencial ou metodologia reprodutvel
Pesquisas Amostrais e Censos
Vantagens
Processo controlado de coleta de dados para um
objetivo especfico
Definio da populao alvo e da populao pesquisada
Arcabouo inferencial bem definido
Reprodutibilidade dos resultados
Obteno de informaes que permitem anlise
multivariada do fenmeno de interesse
Mtodos conhecidos para mensurao da qualidade e
preciso das estimativas
Permite anlise dos efeitos de no resposta e deteco
da ocorrncia de vis de no-reposta
Pesquisas Amostrais e Censos

Desafios
Construo e manuteno de cadastros
Aumento gradual da no resposta (fenmeno observado
em muitos pases e por vrios INEs)
Dificuldades na mensurao de erros de medida
Custo das atividades de pesquisas
Necessidade de reduo do intervalo de tempo entre a
coleta e a publicao dos resultados
Big Data
Vantagens
Possibilidade de capturar dados digitalmente
Custo de obteno dos dados pode ser muito menor do
que em pesquisas
Dados detalhados sobre o meio ambiente, indivduos e
empresas
Dados sobre redes de indivduos ou empresas e suas
conexes
Dados coletados em tempo real
Possibilidade de estudar o que ocorre na cauda das
distribuies
Big Data
Desafios
Uma varivel de interesse em cada base de dados com
poucas covariveis auxiliares
Vis de seletividade e participao voluntria
Volatilidade ou falta de estabilidade (conceitos e definies;
mbito e escopo)
Impossibilidade de delimitao da populao alvo e populao
pesquisada
Questes associadas privacidade das informaes
Problemas de acesso e governana (bancos de dados
proprietrios)
Tamanho no documento (mais dados no so
necessariamente melhores dados)
Big Data

Desafios
Questes ticas no uso do dado e na combinao de
informaes de diferentes fontes de dados
Falta de arcabouo inferencial
Desenvolvimento de metodologia estatstica para lidar
com enormes volumes de dados
Pesquisas quantitativas no cenrio
atual de evoluo do Big Data
A utilizao de dados de fontes alternativas pode ser parte
da soluo para os desafios colocados para produo de
Estatsticas Oficiais

Novas fontes de dados devem permitir a realizao de


inferncias e seguir padres de qualidade das Estatsticas
Oficiais ou outros a serem definidos (que garantam sua
qualidade/integridade tcnico-cientfica)
Big Data e os desafios para a Produo de
Estatsticas Oficiais
Acesso s bases de dados de forma regular e independente
Vieses associados ao Big Data: como utilizar o Big Data?
Como trabalhar com os mtodos estatsticos usuais de
estimao em bases de dados de tamanho to grande?
Utilizao de bases de dados coletadas por diferentes fontes
de informao sem controle sobre o processo de coleta ou
suas modificaes
Big Data e os desafios para a
Produo de Estatsticas Oficiais
Acesso s bases de dados de forma regular e
com protocolos estabelecidos
Dificuldades de acesso a dados de fontes privadas ou a
registros administrativos
Dados so usualmente considerados informaes
estratgicas para empresas (ou legalmente inacessveis)
Questes ticas de sigilo dos usurios/informantes e
questes de mercado dificultam/impedem o acesso
direto dos INEs s informaes de Big Data
Novos protocolos de integrao entre instituies
devem ser construdos para permitir o acesso aos
dados de forma independente e garantindo a
neutralidade no uso e disseminao da informao
Big Data e os desafios para a
Produo de Estatsticas Oficiais
Vieses associados ao Big Data

Vis de cobertura populao do Big Data no corresponde


populao de interesse
Vis de seleo populao do Big Data representa a
populao que informa os dados e no o conjunto completo
da populao de interesse
Vis de representao Big Data contm informao sobre
diferentes populaes (empresas e indivduos por exemplo)
Vis de medida (erro de medida) informaes do Big Data
no correspondem medida que se deseja obter
Big Data para uso em
Estatsticas Oficiais
Big Data e os desafios para a
Produo de Estatsticas Oficiais
Vis de cobertura

Fonte: A Statistical Framework for Analysing Big Data


Siu-Ming Tam Australian Bureau of Statistics - 2015
Big Data e os desafios para a
Produo de Estatsticas Oficiais
Vis de Seleo / Seletividade

Fonte: A Statistical Framework for Analysing Big Data


Siu-Ming Tam Australian Bureau of Statistics - 2015
Big Data e os desafios para a
Produo de Estatsticas Oficiais
Vis de Representao

Dados de
velocidade da
Internet

Medidas de velocidade
Medidas de da Internet pelo SIMET
velocidade da empresas e
Internet pelo estabelecimentos
SIMET -
indivduos Fonte: NIC.br
Big Data e os desafios para a
Produo de Estatsticas Oficiais
Quais mtodos estatsticos?
Big Data e os desafios para a
Produo de Estatsticas Oficiais
Quais mtodos estatsticos?
Amostragem
Mtodos de replicao para anlise e estimao de
medidas
Bag of Little Bootstraps
(http://web.cs.ucla.edu/~ameet/blb_icml2012_final.pdf)
Modelos de Superpopulao
Mtodos para estimao na presena de dados faltantes
(hipteses MAR)
Mtodos de calibrao e imputao
Big Data e os desafios para a
Produo de Estatsticas Oficiais
Quais mtodos estatsticos?

Mtodos para estimao em pequenas reas ( Big Data


como variveis auxiliares)
Mtodos Bayesianos
Modelos de Espao de Estados
Modelos estatsticos de aprendizagem
Big Data e os desafios para a
Produo de Estatsticas Oficiais
Integrao de bases de dados e arcabouo
de qualidade
Garantir que as bases de dados Big Data para uso
em Estatsticas Oficias sigam padres de
documentao e metodologias compatveis com os
protocolos de qualidade adotados para a produo
de Estatsticas Oficiais
Qualidade de Big Data para uso em
Estatsticas Oficiais
Algumas dimenses:
Ambiente institucional (da instituio proprietria)
Segurana e confidencialidade
Complexidade
Cobertura (completeness)
Usabilidade
Temporalidade/Pontualidade
Acurcia (seletividade)
Coerncia
Validade
Acessibilidade e Clareza
Relevncia
http://unstats.un.org/unsd/trade/events/2015/abudhabi/
Aplicaes utilizando Big Data
em Estatsticas Oficiais

Imagens de satlite
informao estruturada
velocidade de atualizao moderada (uma vez ao dia,
por exemplo)
grande volume de dados
pequena variedade de informao

GRANDE nmero de aplicaes


Aplicaes Utilizando Big Data em
Estatsticas Oficiais
Imagens de satlite Exemplos de aplicaes
The Use of Remote Sensing Data for Drought Assessment
and Monitoring in Southwest Asia - Thenkabail, P. S.,
Gamage, M. S. D. N. and Smakhtin, V. U.
Satellite Inventory of human settlements using nocturnal
radiation emissions: a contribution to the global toolchest
Christopher D. Elvidge, Kimberly E. baugh, Vinita Ruth
Hobson, Eric A. Kihn, Herbert W. Kroehl, Ethan R. Davis and
David Coceros
Realizing the Potential of Satellite Imagery to Estimate
Official Crop Area Statistics www.abs.gov.au
Outras Aplicaes Utilizando Big Data

Imagens de satlite Exemplos de aplicaes


Estimativa da distribuio espacial da populao na
Amaznia brasileira com o uso de Sensoriamento
remoto orbital: Contribuies das imagens CCD/CBERS
no caso do municpio de Marab-PA. Silvana Amaral,
Antonio Miguel Vieira Monteiro, Gilberto Cmara, Jos
Alberto Quintanilha - INPE
Outras Aplicaes Utilizando Big Data

Imagens de satlite Exemplos de aplicaes


Avaliao do Potencial das Imagens de Luzes Noturnas
para Estimativa e Distribuio Espacial de Populao
Urbana: Um Estudo para a Regio Metropolitana de So
Paulo, Brasil, com o Sensor Visible/Infrared Imaging
Radiometer Suite (Viirs). Vinicius Etchebeur Medeiros Dria,
Silvana Amaral, Antnio Miguel Vieira Monteiro - INPE

Using satellite data to monitor land-use land-cover


change in North-eastern Latvia. Simon Foteck Fonji and
Gregory N Taff
Aplicaes Utilizando Big Data em
Estatsticas Oficiais

Mobile phone and mobile communication networks


informao no estruturada
velocidade de atualizao alta
grande volume de dados
variedade moderada de informao

MODERADO nmero de aplicaes


Aplicaes Utilizando Big Data em
Estatsticas Oficiais
Mobile phone and mobile communication networks
Poverty on the Cheap: Estimating Poverty Maps Using
Aggregated Mobile Communication Networks. Christopher
Smith-Clarke, Afra Mashhadi and Licia Capra.
Predicting population using mobile device counts.
www.abs.gov.au
Use of mobile phone data to estimate visitors mobility flows.
Lorenzo Gabrielli, Barbara Furletti, Fosca Giannotti, Mirco
Nanni, Salvatore Rinzivillo.
Aplicaes Utilizando Big Data em
Estatsticas Oficiais

Redes sociais e Internet


informao no estruturada
velocidade de atualizao altssima
grande volume de dados
grande variedade de informao

??? nmero de aplicaes


Aplicaes Utilizando Big Data

Redes sociais e Internet


Mining Indonesian Tweets to Understand Food Price
Crises
We feel fine: Big Data Observations of Citizen
Sentiment About State institutions and Social Inclusion
world Bank Group
Aplicaes Utilizando Big Data

Experincias CETIC.br

- TIC WEB Censo do .gov (WEB Scrawling)

- SIMET - Sistema de Medio de Trfego Internet


Aplicaes Utilizando Big Data

SIMET - Sistema de Medio de Trfego Internet

O SIMET um sistema que realiza testes de desempenho


em redes com acesso a Internet, atravs de servidores
espalhados dentro dos Pontos de Troca de Trfego Internet
(http://ptt.br ) e no NIC.br

O SIMET 100% independente, sendo toda a infra-estrutura


e operao a cargo do NIC.br.

http://simet.nic.br/
Aplicaes utilizando Big Data
SIMET - Sistema de Medio de Trfego Internet

Servidor de Medio

Rede
Rede
Interna
Autnoma
(intranet)

37
SIMET - Sistema de Medio de Trfego Internet

SIMET APPLET SIMET MOBILE SIMET BOX

Um mesmo usurio pode realizar vrias medies diariamente


SIMET APPLET identificador de usurio definido por Cookie
no dispositivo
SIMET MOBILE identificador de usurio definido por chave
de dispositivo
SIMET BOX identificador de usurio definido pelo dispositivo
roteador (chave)
informaes auxiliares (cep exceto mobile, velocidade
contratada) informadas pelo usurio
SIMET - Sistema de Medio de Trfego Internet

Medidas:
Velocidade de Download TCP
Velocidade de Upload TCP
Velocidade de Download UDP
Velocidade de Upload UDP
Latncia aferida durante a medio
Jitter aferido durante a medio de upload
Jitter aferido durante a medio de download

Foram consideradas as medies entre Janeiro/2013 at


Outubro/2015
SIMET - Sistema de Medio de Trfego Internet

Tratamento da base de dados e remoo de outliers

Todas as medidas em que havia pelo menos uma varivel


ausente foi removida da base

Outliers removidos nos casos em que o valor observado


encontrava-se fora do intervalo interquartlico
SIMET - Sistema de Medio de Trfego Internet

Processo de clculo de estatsticas descritivas

Foi calculada a mdia das medidas realizadas por cada


usurio por ms/ano

Para calcular o intervalo de confiana para as medidas, o


mtodo de reamostragem bootstrap foi aplicado dentro de
cada ms/ano

Nmero de reamostragens realizadas foi 500


SIMET - Sistema de Medio de Trfego Internet

REGISTROS

SIMET BOX: 6.261.556 Depois: 74.690


SIMET MBL: 7.104.711 Depois: 56.546
SIMET APPLET: 6.330.409 Depois: 1.321.957
SIMET - Sistema de Medio de Trfego Internet
Princpios para Acesso a Big Data

Princpio 1: O papel dos sistemas oficiais de estatstica prover


sociedade informaes relevantes e de alta qualidade de forma imparcial.
Para que isto ocorra todos os atores da sociedade tm a
responsabilidade de fornecer dados agncia estatstica adequada,
sem cobrar nada por isto.

Princpio 2: As agncias oficiais de estatstica devem processar os


dados de Big Data de acordo com os Princpios Fundamentais das
Estatsticas Oficiais (confidencialidade, transparncia, independncia,...)
Princpios para Acesso a Big Data
Princpio 3: Ao coletar dados de empresas com o objetivo de se
produzir estatsticas oficiais, deve se utilizar uma distribuio justa
destas obrigaes sobre as empresas a fim de garantir a igualdade de
condies.

Princpio 4: A obteno de dados para estatsticas oficiais deve levar em


conta o papel dessas informaes no modelo de negcios e o valor de
mercado das informaes. Ao solicitar os dados, deve ser estabelecido um
equilbrio entre os interesses pblicos e o da empresa, de forma que o
possvel nus aos interesses da empresa seja o menor possvel.

Princpio 5: Os dados devem ser adequados e relevantes aos propsitos


para os quais foram requisitados. Dados que extrapolem estes propsitos
no devem ser obtidos. Arranjos operacionais devem ser acordados entre as
empresas e a agncia estatstica, levando em considerao a
adequabilidade dos dados s estatsticas oficiais. Isto tambm se aplica aos
metadados.
Princpios para Acesso a Big Data
Princpio 6: O custo e esforo de prover os dados deve ser compatvel ao
benefcio pblico esperado das estatsticas oficiais sendo consideradas.

Princpio 7: Empresas que operam internacionalmente devem tratar a requisio


de dados para estatsticas oficiais nacionais de forma no discriminatria,
seguindo as diferenas nos arcabouos legais das naes em questo, e
considerando os Princpios Fundamentais das Estatsticas Oficiais e os Princpios
aqui apresentados.

Princpio 8: A transparncia absoluta no provimento de dados para sistemas


estatsticos deve ser exercida pelas empresas e pelas autoridades responsveis
de forma a garantir a confiana do pblico, e visando manter igualdade de
condies a todas as empresas nesse processo. As empresas devem garantir que
seus clientes esto atentos possibilidade de que seus dados sejam usados em
estatsticas oficias, em total acordo com os Princpios Fundamentais das
Estatsticas Oficiais.
Prximos passos?
Constituir grupos de trabalho para desenvolver estudos
metodolgicos para utilizao de Big Data em
Estatsticas Oficiais
Participar de grupos de trabalho e pesquisa
internacionais j estabelecidos
Compartilhar experincias com outras instituies
Capacitar as equipes para lidar com os novos tipos de
dados e contratar especialistas
Construir novas relaes/protocolos para acesso s
bases de dados privadas
Consolidar legislao capaz de permitir acesso s
bases de dados do governo e concessionrias
Obrigado!
Escola Nacional de Cincias
Estatsticas

www.cetic.br
alexandre@nic.br @ComuNICbr Facebook.com/nic.br

You might also like