You are on page 1of 2

Obtendo significativa capacidade preditiva e classificatória de características

pessoais, utilizando modelos de AI baseados em dados comportamentais de


redes sociais
O outro lado (não escuro) da moeda no caso da Cambridge Analytica
Embora esteja nos noticiários diários como um exemplo de utilização aética de dados pessoais de usuários
de redes sociais para fins de manipulação da tendência de voto dos mesmos (e de seus amigos), a
metodologia de tratamento de dados utilizada pela empresa para selecionar eleitores “a serem
convencidos” (a manter ou mudar seu voto), pode sim ser usada – na verdade já é empregada – para
atingir objetivos bem mais nobres, como identificação de potenciais fraudadores (em finanças ou em
concessão de benefícios), devedores com alto risco de inadimplir contratos de crédito, potenciais
pacientes-alvo de abordagens de medicina preventiva, estudantes universitários na iminência de evasão,
etc.

Apesar do nome, a Cambridge Analytica não tem suas raízes na famosa universidade. A empresa é, e
sempre foi, baseada em Londres, mantendo um escritório simbólico em Cambridge apenas para “vender
a ideia” a investidores e potenciais clientes de que tem um berço acadêmico. Não é, portanto, um típico
exemplo de spin-off universitário. Na verdade, a ligação dela com o meio universitário de Cambridge é
apenas através de um pesquisador da universidade - Aleksandr Kogan – que desenvolveu um aplicativo
de avaliação de personalidade, usado como isca para capturar dados (essencialmente “likes” no
Facebook) de usuários do app, bem como de toda a rede de contatos de cada um deles (mesmo contatos
que não eram usuários da aplicação). Esses dados foram então cedidos, de alguma forma ainda não
totalmente esclarecida, à empresa, e o resto da história todos conhecem bem.

A demanda do desenvolvimento do referido aplicativo ao recém-admitido Kogan, por sua vez, em 2012,
surgiu de colegas dele em Cambridge, que na ocasião estavam realizando uma honesta pesquisa para
determinar justamente o quanto de capacidade preditiva – das características pessoais de usuários de
redes sociais - poderiam obter usando apenas os “likes”. Na época, foram capturados e empregados
dados de 58.466 usuários de Facebook que aderiram ao aplicativo de forma consciente (sabiam que os
dados seriam utilizados para fins de pesquisa) e em regime de voluntariado. O artigo com os resultados
foi submetido para publicação em 2012 e efetivamente publicado no início do ano seguinte (vide
referências ao final deste texto). Este é o trabalho sobre o qual segue uma curta apreciação.

Talvez o que mais salta aos olhos é a capacidade preditiva obtida, sobre características pessoais,
considerando que apenas informações de “likes” foram inseridas no modelo. O gráfico abaixo, extraído
do referido trabalho, ilustra bem tal acurácia.

Capacidade classificatória dicotômica - medida como área sob a curva ROC


GÊNERO 93%

LÉSBICA 75%

GAY 88%

DEMOCRATA OU REPUBLICANO 85%

CRISTÃO OU MUÇULMANO 82%

CAUCASIANO OU AFRO-DESCENDENTE 95%

USUÁRIO DE DROGAS 65%

CONSOME BEBIDAS ALCOÓLICAS 70%

FUMANTE 73%

OS PAIS MANTIVERAM-SE JUNTOS ATÉ PELO MENOS OS 21 ANOS DE IDADE 60%

VIVE SOZINHO OU NUMA RELAÇÃO 67%

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Pág. 1 de 2
As variáveis independentes utilizadas foram essencialmente binárias, informando se determinado usuário
(linha de dados) atribuiu ou não pelo menos um “like” a um determinado tema (automóveis, artes
notícias, esportes...), as colunas da amostra de dados. Uma técnica de tratamento de dados, que incluiu
Singular-Value Decomposition (SVD) reduziu a dimensionalidade da matriz de dados, de 55.184 colunas
para apenas 100, o que contribuiu muito para um processamento efetivo utilizando uma amostra
relativamente pequena de usuários.

Diferentemente do trabalho citado, nós na IntelliSearch utilizamos, para redução de dimensionalidade na


construção de nossos modelos, além da SVD (que aplicamos mais a variáveis binárias), uma versão
ligeiramente modificada (por pré-processamento) da técnica de Principal Component Analysis (PCA) que,
para os algoritmos de AI que empregamos na construção de nossos modelos preditivos e classificatórios,
do tipo GRNN (Genetic Regressive Neural Networks), mostra-se mais adequada.

Utilizamos também outras técnicas, mais simples, como razões entre duas variáveis (reduzindo a metade
o número de colunas), quando significativo, sendo o cálculo precedido por outros pré-processamentos,
como normalização e “stretching” de domínios para variáveis pertencentes ao conjunto dos números
Reais.

Embora todas tenham suas vantagens e desvantagens, o resultado é, de uma forma geral, igualmente
satisfatório. No caso do estudo em questão, dado o tamanho da amostra, já seria esperada uma
capacidade preditiva menor de características como o atual status de relacionamento, ou se os pais se
separaram antes que o participante completasse 21 anos, usando apenas “likes”, visto que os usuários
de redes sociais tendem a ser mais reservados ao se manifestarem sobre temas relacionados.

Note-se também que a pesquisa utilizou como algoritmos apenas regressão logística e linear múltipla. A
adoção de algoritmos com maior capacidade classificatória (e de generalização a partir dos dados usados
no treinamento) certamente viabilizaria a obtenção de maior capacidade preditiva.

Isso acabou ocorrendo mais tarde, realizado justamente pela Cambridge Analytica, quando o aplicativo
desenvolvido por Kogan foi novamente utilizado para colher mais informações de um número bem maior
de usuários, não apenas aqueles que se afiliaram diretamente ao aplicativo “isca” (que, em vez de
voluntariar-se, foram remunerados com incentivos entre US$3 e US$5 para participarem da “pesquisa”)
mas desta vez até mesmo os contatos destes tiveram seus “likes” capturados, expandindo
exponencialmente a amostra. O número total de perfis de Facebook que acabaram sendo envolvidos,
conscientes ou não, passou de 50 milhões de norte-americanos.

A empresa adotou um número grande algoritmos de AI, incluindo redes neurais e k-nearest-neighbor, o
que acabou por suprir uma precisão maior e a adoção de estratégias de micro-targeting de “indução
psicológica” extremamente eficazes. Como impedir usos pouco éticos como este no futuro é assunto
para outro artigo. Neste momento, vamos nos atendo às utilizações nobres que mencionamos.

Referências:

Kosinskia, Stillwella, and Graepelb – “Private traits and attributes are predictable from digital records of
human behavior”

Anderson, Berit – “The Rise of the Weaponized AI Propaganda Machine”

Hindman, Matthew – “How Cambridge Analytica’s Facebook targeting model really worked – according
to the person who built it”

Pág. 2 de 2

You might also like