You are on page 1of 7

Cinco anos atrs, uma equipe de pesquisadores do Google anunciou uma conquista notvel

em uma das principais revistas cientficas do mundo, a Nature. Sem precisar os resultados de
um nico check-up mdico, eram, no entanto, capaz de controlar a propagao da gripe em
todos os EUA. Alm do mais, eles poderiam faz-lo mais rapidamente do que os Centros para o
Controle e Preveno de Doenas (CDC). Rastreamento do Google tinha apenas um dia de
atraso, em comparao com a semana ou mais que levou para o CDC para montar uma
imagem com base em relatrios de consultrios mdicos. Google mais rpido porque ele
estava seguindo o surto por encontrar uma correlao entre o que as pessoas procurou online
e se eles tinham os sintomas da gripe.
No s foi "Google Flu Trends" rpida, precisa e barata, que era livre de teoria. Os engenheiros
do Google no se preocupou em desenvolver uma hiptese sobre o que termos de busca -
"sintomas de gripe" ou "farmcias perto de mim" - pode ser correlacionado com a
disseminao da doena em si. A equipe do Google s teve seus 50 milhes de termos de
busca e deixar que os algoritmos de fazer o trabalho.
O sucesso do Google Flu Trends tornou-se emblemtica da nova tendncia quente no mundo
dos negcios, tecnologia e cincia: "Big Data". O que os jornalistas excitados perguntou, a
cincia pode aprender com o Google?
Tal como acontece com tantos chaves, "big data" um termo vago, muitas vezes jogado em
torno de pessoas com algo para vender. Algumas enfatizam a escala dos conjuntos de dados
que agora existem - os computadores grandes do Hadron Collider, por exemplo, armazenar 15
petabytes por ano de dados, o equivalente a cerca de 15.000 no valor de anos de sua msica
favorita.

Mas o "big data" que interessa a muitas empresas o que poderamos chamar de "achados de
dados", o escape digital das buscas na web, pagamentos de carto de crdito e celulares ping o
mastro telefone mais prximo. Google Flu Trends foi construda sobre dados encontrados e
este tipo de dados que me interessa aqui. Tais conjuntos de dados pode ser ainda maior do
que os dados do LHC - Facebook do - mas to digno de nota o fato de que eles so baratos
de recolher em relao ao seu tamanho, eles so uma colagem confuso de pontos de dados
coletados para fins diferentes e que podem ser atualizados em tempo real. Como a nossa
comunicao, lazer e comrcio mudaram-se para a internet ea internet mudou-se para os
nossos telefones, nossos carros e mesmo os nossos culos, a vida pode ser registrado e
quantificado de uma maneira que teria sido difcil imaginar apenas uma dcada atrs.
Cheerleaders para big data fizeram quatro reivindicaes emocionantes, cada um reflete no
sucesso do Google Flu Trends: a de que a anlise de dados produz estranhamente resultados
precisos; que todos os pontos de dados nica pode ser capturada, tornando tcnicas de
amostragem estatstica obsoleto; que pass se preocupar com o que faz com que, por
correlao estatstica nos diz o que precisamos saber; e que os modelos cientficos ou
estatsticos no so necessrios porque, para citar "The End of Theory", um ensaio provocante
publicado na Wired em 2008 ", com dados suficientes, os nmeros falam por si".

Infelizmente, estes quatro artigos de f so, na melhor simplificaes otimistas. Na pior das
hipteses, de acordo com David Spiegelhalter, Winton professor de Compreenso Pblica da
Risco da Universidade de Cambridge, eles podem ser "besteira completa. Disparate absoluto. "
Dados encontrados na base da nova economia internet como empresas como Google,
Facebook e Amazon buscar novas maneiras de entender as nossas vidas atravs do nosso
escape dados. Desde vazamentos de Edward Snowden sobre a escala eo escopo de vigilncia
eletrnica EUA tornou-se evidente que os servios de segurana so to fascinado com o que
eles podem aprender com o nosso escape de dados, tambm.
Consultores de exortar os dados dos ingnuo sbio at o potencial de big data. Um recente
relatrio do McKinsey Global Institute avaliou que o sistema de sade dos EUA poderia
economizar US $ 300 bilhes por ano - US $ 1.000 por americano - atravs de uma melhor
integrao e anlise dos dados produzidos por tudo de ensaios clnicos para as operaes de
seguro de sade para smart tnis.
Mas enquanto os dados grandes prometem muito para cientistas, empresrios e governos,
eles esto condenados a nos decepcionar se ignorarmos algumas lies estatsticas muito
familiares.
"H uma srie de problemas de dados de pequeno porte que ocorrem em grandes dados", diz
Spiegelhalter. "Eles no desaparecem, porque voc tem um monte de coisas. Eles piorar. "

Quatro anos depois do artigo da Nature original foi publicado, Nature News teve notcias
tristes para transmitir: o ltimo surto de gripe tinham reivindicado uma vtima inesperada:
Google Flu Trends. Depois de fornecer de forma confivel uma conta rpida e precisa de surtos
de gripe h vrios invernos, o modelo rico em dados sem teoria tinha perdido o seu nariz por
onde a gripe estava indo. Modelo do Google apontou para um surto grave, mas quando os
dados lentos-e-constante do CDC chegou, eles mostraram que as estimativas do Google da
propagao de doenas gripais foram exagerados por quase um fator de dois.
O problema que o Google no sabe - no poderia comear a conhecer - que ligava os termos
de pesquisa com a propagao da gripe. Os engenheiros do Google no estavam tentando
descobrir o que causou o qu. Eles estavam apenas encontrar padres estatsticos nos dados.
Eles se preocupava com correlao ao invs de causalidade. Isso comum em anlise de dados
grande. Descobrir o que faz com que o que difcil (impossvel, dizem alguns). Descobrir o que
est relacionado com o que muito mais barato e mais fcil. por isso que, de acordo com
Viktor Mayer-Schnberger eo livro de Kenneth Cukier, Big Data ", a causalidade no ser
descartado, mas est sendo derrubado seu pedestal como a fonte primria de significado".
Mas uma anlise livre de teoria de meras correlaes inevitavelmente frgil. Se voc no tem
idia do que est por trs de uma correlao, voc no tem idia do que pode fazer com que a
correlao de quebrar. Uma explicao para o fracasso Flu Trends que a notcia estava cheio
de histrias assustadoras sobre a gripe em dezembro de 2012 e que essas histrias
provocaram pesquisas na internet por pessoas que eram saudveis. Outra explicao possvel
que o prprio algoritmo de busca do Google mudou as regras do jogo, quando comeou
sugerindo automaticamente diagnsticos quando as pessoas entraram sintomas mdicos.
Google Flu Trends vai se recuperar, recalibrado com novos dados - e com razo. H muitas
razes para estar animado com as oportunidades mais amplas que nos so oferecidas pela
facilidade com que podem se reunir e analisar grandes conjuntos de dados. Mas se no
aprendermos as lies deste episdio, vamos encontrar-nos repeti-lo.
Os estatsticos passaram os ltimos 200 anos para descobrir o que as armadilhas esto
espreita quando tentamos compreender o mundo atravs de dados. Os dados so maiores,
mais rpido e mais barato nos dias de hoje - mas no devemos fingir que as armadilhas foram
todos feitos em segurana. Eles no tm.

Em 1936, o republicano Alfred Landon ficou para a eleio contra o presidente Franklin Delano
Roosevelt. A respeitada revista, The Literary Digest, ombros a responsabilidade de prever o
resultado. Ele realizou uma pesquisa de opinio postal de ambio surpreendente, com o
objectivo de chegar a 10 milhes de pessoas, um quarto do eleitorado. O dilvio de respostas
enviadas-in dificilmente pode ser imaginado, mas o Digest parecia estar saboreando a
dimenso da tarefa. No final de agosto ela relatou: "Na prxima semana, as primeiras
respostas de estes dez milhes comear a mar de cdulas marcadas, para ser triple-
marcada, verificada, cinco vezes cross-classificados e totalizados."
Aps a tabulao um surpreendente 2,4 milhes de retornos como eles fluiu em mais de dois
meses, The Literary Digest anunciou suas concluses: Landon ganharia por um convincente 55
por cento para 41 por cento, com alguns eleitores favorecendo um terceiro candidato.
A eleio entregou um resultado muito diferente: Roosevelt esmagado Landon em 61 por
cento para 37 por cento. Para adicionar a agonia de The Literary Digest, uma pesquisa muito
menor conduzido pela pesquisa de opinio pioneiro George Gallup chegou muito mais perto
da votao final, prevendo uma vitria confortvel para Roosevelt. Sr. Gallup entendido algo
que The Literary Digest no. Quando se trata de dados, o tamanho no tudo.
As pesquisas de opinio so baseados em amostras da populao votante em geral. Isso
significa que pesquisas de opinio precisam lidar com duas questes: de erro de amostra e de
vis de amostra.
Erro da amostra reflete o risco de que, por acaso, uma amostra aleatria de opinies no
refletem os verdadeiros pontos de vista da populao. A "margem de erro", relatou nas
pesquisas de opinio reflete esse risco e quanto maior a amostra, menor a margem de erro.
Um milhar de entrevistas uma amostra grande o suficiente para muitos propsitos e Sr.
Gallup relatou ter realizado 3.000 entrevistas.
Mas se 3.000 entrevistas foram bons, por que no foram de 2,4 milhes de longe melhor? A
resposta que o erro de amostragem tem um amigo muito mais perigoso: vis de
amostragem. Erro de amostragem quando uma amostra aleatria no reflete a populao
subjacente por acaso; amostragem vis quando a amostra no escolhido aleatoriamente
em tudo. George Gallup se esforou para encontrar uma amostra imparcial porque ele sabia
que era muito mais importante do que encontrar um grande problema.
The Literary Digest, em sua busca por um conjunto de dados maior, atrapalhou a questo de
uma amostra tendenciosa. Ele enviou os formulrios para as pessoas em uma lista que tinha
compilado a partir de registros de automveis e listas telefnicas - uma amostra de que, pelo
menos em 1936, foi desproporcionalmente prspero. Para agravar o problema, os defensores
Landon acabou por ser mais propensos a enviar de volta as suas respostas. A combinao
dessas duas tendncias foi o suficiente para condenar pesquisa do The Literary Digest. Para
cada pessoa pesquisadores de George Gallup entrevistou, The Literary Digest recebeu 800
respostas. Tudo o que lhes deu para suas dores era uma estimativa muito precisa da resposta
errada.
A grande mania de dados ameaa ser The Literary Digest tudo de novo. Como os conjuntos de
dados encontrados so to confuso, pode ser difcil descobrir quais tendncias se escondem
dentro deles - e porque eles so to grandes, alguns analistas parecem ter decidido o
problema de amostragem no vale a pena se preocupar com. .
Professor Viktor Mayer-Schnberger do Instituto de Internet de Oxford, co-autor de Big Data,
me disse que sua definio favorecido de um conjunto de dados grande aquele em que "N =
All" - onde no temos mais para provar, mas temos todo o populao do fundo. Oficiais de
Devoluo no estimar um resultado eleitoral com um registro representativo: contam os
votos - todos os votos. E quando "N = All" existe realmente nenhum problema de vis de
amostragem, pois a amostra inclui todos.
Mas "N = All" realmente uma boa descrio da maioria dos conjuntos de dados encontrados
estamos considerando? Provavelmente no. "Gostaria de desafiar a noo de que jamais
poderia ter todos os dados", diz Patrick Wolfe, um cientista da computao e professor de
estatstica da Universidade College London.
Um exemplo o Twitter. , em princpio, possvel gravar e analisar cada mensagem no Twitter
e us-lo para tirar concluses sobre o estado de esprito pblico. (Na prtica, a maioria dos
pesquisadores usam um subconjunto desse vasto "mangueira de incndio" de dados.) Mas
enquanto podemos olhar para todos os tweets, os usurios do Twitter no so representativos
da populao como um todo. (De acordo com a Pesquisa Pew Internet Project, em 2013, os
usurios do Twitter com base nos EUA eram desproporcionalmente jovem, urbano ou
suburbano, e preto.)
Deve haver sempre uma pergunta sobre quem eo que est faltando, especialmente com uma
pilha confusa de dados encontrados. Kaiser Fung, um analista de dados e autor de
Numbersense, adverte contra simplesmente assumindo que temos tudo o que importa. "N =
Tudo muitas vezes uma suposio, em vez de um fato sobre os dados", diz ele.
Considere aplicativo de smartphone de Boston Street Bump, que usa o acelermetro do
telefone para detectar buracos sem a necessidade de trabalhadores da cidade para patrulhar
as ruas. Como cidados do Boston baixar o aplicativo e unidade em torno, seus telefones
notificar automaticamente Prefeitura da necessidade de reparar a superfcie da estrada.
Resolver os desafios tcnicos envolvidos produziu, em vez lindamente, um escape de dados
informativo que aborda um problema de uma forma que teria sido inconcebvel h alguns anos
atrs. A cidade de Boston proclama orgulhosamente que o "de dados fornece a cidade com
informaes em tempo real que usa para corrigir problemas e planejar investimentos de longo
prazo."
Contudo, o que realmente produz Rua Bump, deixou prpria sorte, um mapa de buracos
que favorece sistematicamente reas jovens, ricos onde mais pessoas possuem smartphones.
Rua Bump oferece-nos "N = All" no sentido de que cada solavanco de cada telefone habilitado
pode ser gravado. Isso no a mesma coisa que gravar cada buraco. Como a Microsoft
pesquisadora Kate Crawford aponta, encontrou dados conter desvios sistemticos e leva o
pensamento cuidadoso para detectar e corrigir essas distores. Grandes conjuntos de dados
pode parecer abrangente, mas o "N = All" muitas vezes uma iluso sedutora.
. . .
Quem se importa com a causao ou vis de amostragem, porm, quando h dinheiro a ser
feito? As corporaes ao redor do mundo devem ser salivando enquanto contemplam o
sucesso misteriosa do destino de lojas de departamento de desconto dos EUA, como a famosa
relatado por Charles Duhigg no The New York Times em 2012. Duhigg explicou que Alvo
recolheu tantos dados sobre seus clientes, e to hbil em analisar esses dados, que a sua
viso sobre os consumidores podem parecer mgica.
Assassino anedota do Duhigg era do homem que invadiu um alvo perto de Minneapolis e
reclamou com o gerente que a empresa estava enviando cupons para roupas de beb e
maternidade desgaste de sua filha adolescente. O gerente pediu desculpas e, mais tarde
chamado de pedir desculpas mais uma vez - apenas para ser informado de que o adolescente
estava realmente grvida. Seu pai no tinha percebido. Target, depois de analisar suas
compras de toalhetes sem cheiro e suplementos de magnsio, tinha.
Feitiaria estatstica? H uma explicao mais mundana.
"H um enorme problema de falso positivo", diz Kaiser Fung, que passou anos a desenvolver
abordagens semelhantes para os varejistas e anunciantes. O que Fung significa que ns no
conseguimos ouvir as inmeras histrias sobre todas as mulheres que receberam cupons para
babywear, mas que no estavam grvidas.

Jornalismo mundial de alta qualidade exige investimento. Por favor, compartilhe este artigo
com outras pessoas usando o link abaixo, no cortar e colar o artigo. Veja nossa Ts & Cs e
Poltica de direitos autorais para mais detalhes. Email ftsales.support @ ft.com para comprar
os direitos adicionais. http://www.ft.com/cms/s/2/21a6e7d8-b479-11e3-a09a-
00144feabdc0.html # ixzz37ggtnfco

Ouvindo a anedota, fcil supor que os algoritmos do alvo so infalveis - que todo mundo
receber cupons de macaco e lenos umedecidos est grvida. Isto improvvel infimamente.
Na verdade, pode ser que as mulheres grvidas recebam tais ofertas s porque todo mundo na
lista de discusso da Target recebe tais ofertas. No devemos comprar a idia de que Alvo
emprega mente-leitores, antes de considerar o nmero de acidentes assistir a cada hit.
No relato de Charles Duhigg, Target mistura em ofertas aleatrias, tais como cupons para
copos de vinho, porque os clientes grvidas sentiria assustado se eles perceberam quo
intimamente computadores da empresa entendia.
Fung tem outra explicao: Target mescla suas ofertas no porque seria estranho para enviar
um todo-beb coupon-book com uma mulher que estava grvida, mas porque a empresa sabe
que muitos desses livros cupom ser enviado para as mulheres que aren 't grvida depois de
tudo.
Nada disso sugere que esse tipo de anlise de dados intil: pode ser altamente rentvel.
Mesmo um modesto aumento na preciso das ofertas especiais direcionados seria um prmio
no valor de ganhar. Mas a rentabilidade no deve ser confundida com a oniscincia.
. . .
Em 2005, John Ioannidis, epidemiologista, publicou um trabalho de pesquisa com o ttulo auto-
explicativo: "Por Achados de Pesquisa mais publicado so falsas". O papel se tornou famoso
como um diagnstico provocador de um problema srio. Uma das ideias-chave por trs do
trabalho do Ioannidis o que os estatsticos chamam de "problema-comparaes mltiplas".
rotina, ao examinar um padro de dados, para perguntar se tal padro pode ter surgido por
acaso. Se pouco provvel que o padro observado poderia ter surgido ao acaso, chamamos
esse padro "estatisticamente significativa".
O problema-comparaes mltiplas surge quando um pesquisador olha para muitos padres
possveis. Considere-se um ensaio clnico randomizado em que vitaminas so dadas a alguns
alunos primrios e placebos so dados para os outros. Ser que as vitaminas funcionam? Isso
tudo depende do que se entende por "trabalho". Os pesquisadores podia olhar para a altura
das crianas, o peso, a prevalncia da crie dentria, o comportamento em sala de aula, os
resultados dos testes, mesmo (depois de esperar) o registro de priso ou ganhos com a idade
de 25 Depois, h combinaes para verificar:. Que as vitaminas tm um efeito sobre as
crianas mais pobres, das crianas mais ricas, os meninos, as meninas? Teste suficientes
correlaes diferentes e resultados Fluke abafar as descobertas reais.
Existem vrias maneiras de lidar com isso, mas o problema mais grave em grandes conjuntos
de dados, porque existem comparaes muito mais possveis do que h pontos de dados para
comparar. Sem uma anlise cuidadosa, a proporo de padres genunos aos padres esprios
- do sinal ao rudo - tende rapidamente para zero.
Pior ainda, um dos antdotos para o problema-comparaes mltiplas a transparncia,
permitindo que outros pesquisadores para descobrir quantas hipteses foram testadas e
quantos resultados contrrios esto definhando em gavetas, porque eles simplesmente no
parece interessante o suficiente para publicar. No entanto, os conjuntos de dados encontrados
so raramente transparente. Amazon e Google, Facebook e Twitter, Target e Tesco - essas
empresas no esto prestes a compartilhar seus dados com voc ou qualquer outra pessoa.
Novos, grandes conjuntos de dados, baratas e poderosas ferramentas analticas pagar
dividendos - ningum duvida disso. E existem alguns casos em que a anlise de grandes
conjuntos de dados tem trabalhado milagres. David Spiegelhalter de Cambridge aponta para o
Google Translate, que opera por meio da anlise estatstica de centenas de milhes de
documentos que foram traduzidos por humanos e procura de padres que podem ser
copiados. Este um exemplo do que os cientistas da computao chamam de "aprendizagem
de mquina", e pode oferecer resultados surpreendentes, sem regras gramaticais pr-
programados. Traduz Google o mais prximo sem teoria, caixa preta algortmica data-driven
como ns temos - e que , diz Spiegelhalter, "uma conquista surpreendente". Essa conquista
construdo sobre o processamento inteligente de enormes conjuntos de dados.
Mas os dados grandes no resolvem o problema que tem obcecado estatsticos e cientistas h
sculos: o problema da percepo, de inferir o que est acontecendo e descobrir como
podemos intervir para mudar um sistema para melhor.
"Ns temos um novo recurso aqui", diz o professor David Hand of Imperial College London.
"Mas ningum quer 'dados'. O que eles querem so as respostas. "
Para usar os dados grandes para produzir tais respostas exigir grandes avanos nos mtodos
estatsticos.
" o oeste selvagem no momento", diz Patrick Wolfe da UCL. "As pessoas que so inteligentes
e conduzido ir torcer e girar e usar todas as ferramentas para obter o sentido fora destes
conjuntos de dados, e isso legal. Mas ns estamos voando um pouco cego pouco no
momento. "
Os estatsticos esto lutando para desenvolver novos mtodos para aproveitar a oportunidade
de big data. Esses novos mtodos so essenciais, mas eles vo trabalhar, com base nas antigas
aulas de estatstica, e no ignorando-os.
Lembre-se de grande de dados de quatro artigos de f. Preciso Uncanny fcil superestimar
se simplesmente ignorar falsos positivos, como acontece com a gravidez preditor da Target. A
alegao de que a causalidade foi "derrubado seu pedestal" muito bem se estamos a fazer
previses em um ambiente estvel, mas no se o mundo est a mudar (como acontece com
Flu Trends) ou se ns mesmos esperamos mudar isso. A promessa de que "N = All" e, portanto,
que o vis de amostragem no importa, simplesmente no verdade na maioria dos casos que
contam. Quanto ideia de que "com dados suficientes, os nmeros falam por si" - que parece
ingnuo, em conjuntos de dados onde os padres esprios superam amplamente descobertas
genunas.
"Big data" chegou, mas as grandes idias no tem. O desafio agora resolver novos problemas
e ganhar novas respostas - sem cometer os mesmos erros estatsticos de idade em uma escala
maior do que nunca.

You might also like