You are on page 1of 12

DA CINCIA

E-CINCIA:
PARADIGMAS DA
DESCOBERTA DO
CONHECIMENTO
DANIEL CORDEIRO
KELLY R. BRAGHETTO
ALFREDO GOLDMAN
FABIO KON

REVISTA USP SO PAULO N. 97 P. 71-80A MARO/ABRIL/MAIO 2013

71

dossi Computao em nuvem

RESUMO

ABSTRACT

Gradualmente, a computao est deixando de ser apenas uma ferramenta de


apoio a novas pesquisas para se tornar
parte fundamental das cincias com que
interage e de seus mtodos cientficos. A
sinergia entre cincia da computao e as
outras reas do conhecimento criou um
novo modo de se fazer cincia a e-science
(ou e-cincia) que unifica teoria, experimentos e simulao, ao mesmo tempo
em que lida com uma quantidade enorme
de informao. O uso de computao em
nuvem tem o potencial de permitir que
pesquisas antes restritas queles com
acesso a supercomputadores possam ser
realizadas por qualquer pesquisador. Este
artigo apresenta uma breve descrio da
evoluo dos paradigmas do modo de se
fazer cincia (do empirismo ao panorama
atual da e-science) e aborda o potencial da
computao em nuvem como ferramenta
catalisadora de pesquisa transformativa.

Computer Science is gradually evolving


from a mere supporting tool for research
in other fields and turning into an intrinsic
part of the very methods of the sciences
with which it interacts. The synergy between Computer Science and other fields of
knowledge created a novel way of doing
science called eScience which unifies
theory, experiments, and simulations,
enabling researchers to deal with huge
amounts of information. The use of cloud
computing has the potential to allow any
researcher to conduct works previously
restricted to those with access to supercomputers. This article presents a brief history
of the evolution of scientific paradigms
(from empiricism to the current landscape
of eScience) and discusses the potential
of cloud computing as a tool capable
of catalyzing transformative research.

Palavras-chave: e-science, computao


em nuvem, cincia da computao, paradigmas cientficos.

Keywords: e-science, cloud computing,


computer science, scientific paradigms.

o longo dos ltimos


trs milnios, o conceito que a sociedade faz de cincia e
o modo de se fazer
cincia vm evoluindo, com mudanas
significativas acontecendo no decorrer dos
sculos. Como tudo o que envolve a evoluo da humanidade, a velocidade com que as
mudanas ocorriam nos milnios passados
era bem menor, foi aumentando incrivelmente no sculo passado e continua a aumentar
no novo milnio. Entre evoluo do pensamento dos filsofos pr-socrticos, no sculo VI a.C., e os experimentos cientficos de
Arquimedes, no sculo III a.C., passaram-se
mais de trezentos anos. No ltimo milnio,
a velocidade s aumentou. Do trabalho multifacetado artstico-cientfico-pragmtico
de Leonardo da Vinci, um homem da Renascena, no sculo XV, aos trabalhos com
matemtica, fsica e astronomia de Galileu
Galilei, o pai da cincia moderna, no sculo
XVII, at o trabalho especializado de Alan
Turing, o pai da cincia da computao, no
sculo XX, observamos grandes mudanas.
O ato de se fazer cincia passou por significativos aprimoramentos e refinamentos em
sua metodologia de trabalho, incluindo novo
ferramental lgico-matemtico, novos instrumentos de observao do mundo e novos

paradigmas de estruturao do pensamento


cientfico (Kuhn, 1962).
Segundo Jim Gray (apud Hey et al.,
2009), a cincia nasceu h milhares de anos
de forma emprica, descrevendo fenmenos
naturais. Nos ltimos sculos, ela passou a
incorporar uma importante componente terica, utilizando modelos e generalizaes.
Nas ltimas dcadas, surgiu uma forte tendncia computacional, com a possibilidade
de realizao de sofisticadas simulaes de
fenmenos complexos. Nos ltimos anos,
estamos observando o aparecimento de um
quarto paradigma, a explorao de grandes
quantidades de dados, muitas vezes chamado de e-science (e-cincia), que unifica
teoria, experimentos e simulao, ao mesmo tempo em que lida com uma quantidade
enorme de informao.
Nessa nova forma de se fazer cincia,
trilhes de bytes de dados so capturados
por instrumentos ou gerados via simulao.
O acelerador de partculas Large Hadron
Collider (LHC), da Organizao Europeia
para a Pesquisa Nuclear (Cern), captura 25
petabytes (quatrilhes) de dados todos os
anos. O sequenciamento do genoma de um
nico ser humano requer o armazenamento
de 4 gigabytes (bilhes) de caracteres. impossvel processar essa enorme quantidade
de dados manualmente, o processamento precisa ser obrigatoriamente feito por

REVISTA USP SO PAULO N. 97 P. 71-80A MARO/ABRIL/MAIO 2013

DANIEL CORDEIRO
ps-doutorando
em Cincia
da Computao
no IME-USP.
KELLY ROSA
BRAGHETTO
professora
de Cincia da
Computao
do IME-USP.
ALFREDO
GOLDMAN
professor
associado de Cincia
da Computao
do IME-USP e diretor
do Centro
de Competncia
em Software Livre.
FABIO KON
professor titular
de Cincia
da Computao
do IME-USP.

73

dossi Computao em nuvem

1 Virtualizao uma
tcnica computacional que permite que
uma grande quantidade de mquinas virtuais seja criada dentro
de um nico computador. Dessa forma, os
usurios finais (cientistas) podem multiplicar a quantidade de
mquinas utilizadas
para o processamento
de seus experimentos
e compartilhar de forma segura o mesmo
conjunto de mquinas
fsicas.
2 Veja o verbete Open
science na Wikipdia:
http://en.wikipedia.
org/wiki/Open_science.

74

software. A informao precisa ser armazenada em grandes bancos de dados. A anlise


desses dados tem de utilizar um ferramental
estatstico avanado, codificado na forma de
programas de computador, que consomem,
filtram, manipulam, transformam e consolidam esses dados com o objetivo de extrair
alguma informao relevante.
De fato, a cincia da computao de
uma forma geral e, mais especificamente,
o software passaram a ser um componente central da cincia do sculo XXI. Salvo
raras excees, no se fazem boas cincias
exatas e biomdicas hoje em dia sem bons
desenvolvedores de software na equipe de
trabalho. At nas cincias humanas, as ferramentas computacionais esto comeando a
ser utilizadas mais fortemente (Meyer, 2013).
At meados da dcada de 1990, a computao de alto desempenho era realizada em
supercomputadores que possuam uma arquitetura especial, memria especializada e barramentos de comunicao de alta velocidade
ao custo de milhes de dlares. Na segunda
metade daquela dcada tornou-se frequente a utilizao de aglomerados (clusters) de
dezenas ou centenas de PCs convencionais
trabalhando em conjunto para a soluo de
um nico problema cientfico. Na virada do
sculo, surgiu a ideia de interconectar vrios desses aglomerados atravs da Internet,
formando as grades computacionais. Elas
podem agregar milhares de computadores
compartilhados por cientistas de diversas
instituies, permitindo a realizao de seus
experimentos computacionais e processamento de grandes quantidades de dados.
Nos ltimos anos, no entanto, a tecnologia das grades, associada a mecanismos
de virtualizao1, evoluiu para o modelo
de computao em nuvem (Zhang et al.,
2010). Uma nuvem oferece uma interface
simples por meio da qual usurios podem
obter mquinas virtuais para a execuo de
suas tarefas computacionais. As nuvens so,
atualmente, amplamente usadas por empresas, para comrcio eletrnico, por governos,
para a execuo de suas tarefas corriqueiras,
e por uma infinidade de servios disponveis

na Internet. Essa tecnologia permite o compartilhamento mais racional do hardware,


baixando os custos, simplificando os processos e diminuindo o impacto ambiental (e.g.,
consumo de energia). Por exemplo, em vez
de cinquenta grupos de pesquisa da Universidade de So Paulo comprarem, instalarem,
configurarem e manterem cinquenta aglomerados distintos, que possivelmente ficariam
ociosos boa parte do tempo, agora podem
compartilhar uma nica infraestrutura de nuvem, com muito mais poder computacional a
menores custo e impacto.
No entanto, as peculiaridades do tipo de
computao que a cincia contempornea
exige ainda fazem com que as nuvens sejam
pouco utilizadas pelos cientistas. As nuvens
atuais no foram projetadas para lidar com
o processamento de enormes quantidades de
dados da forma como aplicaes cientficas
fazem. O acesso compartilhado a esses dados por centenas de cientistas espalhados em
diferentes partes do globo tambm no fcil; com o recente movimento no sentido da
cincia aberta2, esse tipo de acesso universal
e aberto se torna cada vez mais desejado. As
interfaces de programao e de administrao das mquinas utilizadas nas nuvens ainda so desconhecidas pela grande maioria
dos grupos de pesquisa que, se utilizassem a
nuvem, passariam a depender de especialistas em TI para executar tarefas corriqueiras
do dia a dia.
Portanto, ainda so necessrias pesquisas
em cincia da computao para tornar a tecnologia de nuvem mais apropriada natureza
especfica da computao cientfica e mais
facilmente acessvel a grupos de pesquisa de
outras reas da cincia. necessrio tambm
a educao da nova gerao de bilogos, fsicos, qumicos, mdicos, cientistas sociais,
linguistas, etc., no ferramental bsico de trabalho dentro desse novo modelo.
Este texto apresenta uma breve descrio
da evoluo dos paradigmas do modo de se
fazer cincia (do empirismo ao panorama
atual da e-science) e aborda o potencial da
computao em nuvem como ferramenta catalisadora de pesquisa transformativa.

REVISTA USP SO PAULO N. 97 P. 71-80A MARO/ABRIL/MAIO 2013

EVOLUO DA CINCIA
Mudanas significativas no processo
de criao de conhecimento so raras, mas
a histria mostra que elas ocorrem tanto
quando h a criao de uma nova ferramenta
conceitual que se mostra fundamental (por
exemplo, o Clculo Diferencial e Integral de
Newton), como quando uma nova ferramenta
tecnolgica (por exemplo, o microscpio eletrnico) permite a criao de novos tipos
de cincia.
Computadores desempenham um papel cada vez mais importante no processo
cientfico. Nos ltimos cinquenta anos, o
uso de ferramentas computacionais mudou
a forma como a cincia feita em reas diversas, como meteorologia e climatologia,
mecnica dos fluidos, astrofsica, qumica,
etc. No s o uso de computadores permitiu
o desenvolvimento de novos tipos de pesquisas nessas reas, como os novos desafios trazidos por elas promoveram grandes avanos
na teoria e prtica da cincia da computao.
As novas necessidades impostas pela cincia
esto promovendo uma mudana importante
no papel que a cincia da computao exerce
sobre outras reas. Gradualmente, a computao est deixando de ser apenas uma ferramenta de apoio a novas pesquisas para
se tornar uma parte fundamental das outras
reas com que interage e de seus mtodos
cientficos.
Jim Gray, vencedor do Prmio Turing de
1998, o Nobel da cincia da computao,
e um dos pioneiros em aplicaes de tcnicas computacionais para o tratamento de
grandes quantidades de dados gerados por
cientistas de outras reas, via nessa mudana uma verdadeira transformao no fazer
cincia. Em sua opinio, estaramos vivendo
o incio de um quarto paradigma, que redefinir a metodologia cientfica de diversas
reas do conhecimento (Hey et al., 2009).
O primeiro paradigma da metodologia
cientfica teria sido o empirismo. H milhares de anos, o processo de descoberta era
feito somente a partir de experimentos. Todo
o conhecimento acerca dos fenmenos natu-

rais era baseado e adquirido unicamente por


meio do que se podia apreender pelos sentidos.
A primeira quebra de paradigma teria
ocorrido h algumas centenas de anos, com
o surgimento das primeiras tentativas de se
explicar fenmenos por meio de modelos
tericos. Modelos como as Leis de Kepler, as
Leis de Netwon ou a Lei de Boyle-Mariotte
(dentre tantas outras) permitiram no s um
melhor entendimento dos fenmenos observados empiricamente, como tambm a realizao de previses sobre o comportamento
de novos fenmenos.
Com o passar do tempo, cientistas criaram modelos grandes e complexos demais
para serem resolvidos de forma puramente
analtica e passaram a utilizar simulaes
que, tipicamente, avaliam a evoluo de um
fenmeno em funo do tempo utilizando o
modelo desenvolvido. A complexidade das
simulaes impulsionou o desenvolvimento
da computao cientfica.
O Eniac, um dos primeiros computadores
digitais eletrnicos de uso geral, comeou a
ser desenvolvido em 1943 (durante a Segunda
Guerra Mundial) para a realizao de simulaes de modelos balsticos. A partir de 1946,
quando a existncia do Eniac foi anunciada
ao mundo, ele passou a ser utilizado para a
realizao de simulaes em diferentes reas
do conhecimento. Foi utilizado, por exemplo,
no desenvolvimento de tneis de vento, na
anlise de nmeros aleatrios, em clculos
de energia atmica e em aplicaes de previso meteorolgica. Desde ento, muitas pesquisas cientficas foram validadas com base
no apenas em dados obtidos por meio de observaes experimentais, mas tambm com
base em resultados de simulaes numricas.
O desenvolvimento de computadores
cada vez mais rpidos, juntamente com os
avanos feitos pela cincia da computao
nas reas de computao paralela e distribuda, permitiu que diversas cincias comeassem a realizar simulaes numricas em
escalas cada vez maiores. Isso possibilitou a
simulao de modelos cada vez mais complexos, que analisam e produzem uma grande
quantidade de dados e requerem muito poder

REVISTA USP SO PAULO N. 97 P. 71-80A MARO/ABRIL/MAIO 2013

75

dossi Computao em nuvem

3 The Human Geno me Project: http://


www.genome.
gov/10001772.

76

computacional para sua execuo. Ao mesmo tempo em que a computao evoluiu, as


cincias experimentais tambm evoluram
e passaram a ser capazes de coletar uma
quantidade maior de dados. Jim Gray dizia
que, atualmente, os astrnomos no olham
mais atravs de seus telescpios. Ao invs
disso, eles olham atravs de instrumentos
complexos que esto conectados a centrais
de processamento de dados e, s ento, utilizam seus computadores para visualizar as
informaes coletadas.
Em muitas reas da cincia, principalmente nas cincias naturais, as novas tecnologias criaram novas possibilidades (ou tipos)
de pesquisa. Criou-se uma nova metodologia
de pesquisa em que dados experimentais,
coletados por meio de instrumentos ou gerados por simulao, so processados por
sistemas de software complexos, e s ento a
informao (ou o conhecimento) resultante
armazenada em computadores. Os cientistas
s analisam os dados no final do processo.
Trata-se, de fato, de uma mudana importante no processo de pensamento cientfico, que
est substituindo o processo de formulao
de hiptese
experimentao
anlise
de resultados por formulao de hiptese
busca da resposta no banco de dados
(Emmott et al., 2006). Esse novo processo
cientfico, baseado no processamento e anlise de grandes quantidades de dados, requer
tecnologias e metodologias to distintas que
diversos cientistas, ao lado de Gray, dizem
estarmos presenciando o incio de um novo
(o quarto) paradigma de explorao cientfica.
A cincia da computao exerce um
papel fundamental nesse novo processo
cientfico. As tcnicas desenvolvidas nas ltimas dcadas permitem que essas grandes
quantidades de dados sejam processadas por
algoritmos eficientes, capazes de explorar o
grande poder computacional fornecido por
solues modernas como as plataformas de
computao em nuvem. Mas, mais do que
uma ferramenta operacional para as outras
cincias, os conceitos e teorias da cincia da
computao j so parte intrnseca de pesquisas em outras reas do conhecimento.

A primeira prova da importncia dos


conceitos da computao como parte integrante de uma outra cincia foi mostrada
no Projeto Genoma Humano3. A escolha
apropriada das abstraes matemticas que
representam os elementos da pesquisa tais
como a representao das sequncias de
DNA como um string (ou seja, uma sequncia finita de smbolos) ou a representao da
estrutura tridimensional das protenas como
um grafo rotulado permitiu o uso de teorias
sofisticadas que garantiram o processamento eficiente e a disponibilizao de grandes
bancos de dados de sequncias de DNA digitalizadas para cientistas de diversas partes
do mundo. A codificao de conhecimento
cientfico cria uma nova metodologia cientfica, na qual esse conhecimento pode ser
analisado computacionalmente no mundo
virtual mesmo antes que qualquer experimento seja realizado no mundo real. Mais
ainda, a codificao promove um processo
de pesquisa ainda mais colaborativo, no qual
novos modelos podem ser facilmente avaliados e testados usando outros modelos e
dados disponibilizados por outros cientistas,
interconectados pela Internet.
Alm das abstraes, muitas outras ferramentas e teorias da computao podem
ser aplicadas a outras cincias. A computao estuda h vrios anos diversas noes
de complexidade. A complexidade de Kolmogorov, por exemplo, avalia qual o menor
programa que pode produzir um determinado string e poderia ser usado no estudo de
rvores filogenticas na biologia (Emmott et
al., 2006, p. 27). Outro exemplo interessante
o uso de modelos algbricos de computao paralela para descrever conceitos como
concorrncia, indeterminismo, comunicao,
sincronizao, troca de mensagens, etc. Esses
modelos esto sendo usados para entender
melhor os processos biolgicos inter e intracelulares (Cardelli, 2005).

E-SCIENCE HOJE
A cincia hoje, mais do que nunca, uma
atividade colaborativa. Um exemplo disso o

REVISTA USP SO PAULO N. 97 P. 71-80A MARO/ABRIL/MAIO 2013

Worldwide LHC Computing Grid (WLCG)4,


projeto que integra grades computacionais de
mais de 200 centros em 36 pases, com o objetivo de prover os recursos computacionais necessrios para armazenar, distribuir e analisar
os dados gerados pelo Large Hadron Collider
(LHC). O LHC o maior acelerador de partculas existente no mundo e gera todos os anos
cerca de 25 petabytes (aproximadamente 25
quatrilhes de bytes) de dados. Para dimensionar esse volume de dados, considere que, se
estivessem armazenados em DVDs comuns,
os dados ocupariam mais de 220 mil discos.
A manuteno desse volume gigantesco de
dados no seria possvel no fosse a rede de
colaborao mantida pelo WLCG. Os dados
resultantes dos experimentos conduzidos no
LHC so distribudos a centenas de centros
computacionais de instituies de pesquisa
espalhadas pelo mundo. Esses centros, por sua
vez, processam os dados e os disponibilizam
a uma comunidade de mais de 8 mil fsicos.
H poucos anos, era difcil imaginar
que ambientes para a colaborao cientfica em uma escala global (como o provido
pelo WLCG) seriam exequveis. Mas a rpida evoluo das redes de computadores de
abrangncia local e global, o aumento da capacidade de armazenamento, processamento
e transmisso de dados, e o barateamento dos
equipamentos eletrnicos impulsionaram a
criao de plataformas computacionais de
alto desempenho que hoje so usadas para
amparar o desenvolvimento da cincia.
De nada adiantaria toda essa infraestrutura computacional para amparar os processos cientficos se no houvesse programas de
computador que escondessem dos cientistas
a complexidade envolvida no uso desses ambientes. George Johnson (2001), em um artigo
escrito para o New York Times, constatou que
hoje toda cincia cincia da computao.
Porm, nem todo cientista precisa (ou quer!)
ser um cientista da computao. Essa a
principal razo para que sistemas de software como o Taverna5 e o Pegasus6, gerenciadores de fluxos de trabalho (workflows) cientficos, tenham se tornado muito populares entre
fsicos, qumicos, bilogos e astrnomos.

Os sistemas gerenciadores de workflows


permitem que um cientista descreva um experimento cientfico como um conjunto de
tarefas a serem realizadas pelo computador.
Esse conjunto de tarefas o workflow. As
tarefas comumente realizadas em um experimento se relacionam a coleta, homogeneizao, filtragem e anlise de dados. Um cientista define o seu workflow usando um modelo
grfico, de compreenso bastante intuitiva. A
partir desse modelo, o sistema gerenciador de
workflows capaz de executar o experimento
de forma automtica, com pouca ou nenhuma interveno do cientista, utilizando, para
isso, a infraestrutura computacional disponvel. O prprio sistema gerenciador se encarrega de traar estratgias para o bom uso
dos recursos computacionais, garantindo que
os experimentos sejam executados de forma
eficiente e segura. Portais da Web como o
MyExperiments7 complementam as funcionalidades dos sistemas gerenciadores, atuando como canais para o compartilhamento
de modelos de workflows, estabelecendo
novos meios de comunicao entre cientistas e promovendo a colaborao cientfica.
Alm dos sistemas gerenciadores de
workflow, que auxiliam o projeto e a execuo
de experimentos, existem outros programas
de computador que desempenham um papel
fundamental nas descobertas cientficas. So
programas que implementam algoritmos
complexos de anlise de dados, como os que
realizam reconhecimento de padres ou os
que extraem modelos de predio a partir de
dados histricos. Entre os programas desse
tipo que so desenvolvidos na USP, tem-se,
por exemplo, os que fazem a deteco automtica de anomalias em imagens mdicas
(Rimkus et al., 2011) ou identificam a correlao entre mutaes do HIV e a resistncia
medicao retroviral (Cintho et al., 2012).
A computao faz mais do que amparar
o desenvolvimento da cincia; ela aproxima
cincia e sociedade. No apenas pelo fato de
redes de abrangncia global (como a Internet) facilitarem a divulgao dos resultados
cientficos, mas tambm por possibilitarem
que o cidado comum colabore na anlise de

REVISTA USP SO PAULO N. 97 P. 71-80A MARO/ABRIL/MAIO 2013

4 Projeto Worldwide
LHC Computing Grid:
http://wlcg.web.cern.
ch.
5 Taverna Workflow Management System:
http://www.taverna.
org.uk.
6 P
 e gasus Work f low
Management System:
http://pegasus.isi.edu.
7 Projeto MyE xp eri ments: http://www.
myexperiment.org.

77

dossi Computao em nuvem

8  Projeto SETI@home:
ht tp: //setiathome.
berkeley.edu.
9 C
 itizen Science Alliance: http://www.citizensciencealliance.
org.
10 Projeto Ancient Lives:
http://ancientlives.
org.

78

dados e na realizao de experimentos cientficos. Exemplos disso so a computao


voluntria e a cincia cidad.
Na computao voluntria, pessoas comuns doam a grandes projetos cientficos
a capacidade de processamento ociosa de
seus computadores de uso pessoal. Um dos
maiores projetos de computao distribuda
da histria da computao um de computao voluntria, o SETI@home8, que analisa
dados de radiotelescpios em busca de vida
inteligente fora da Terra. O SETI@home foi
lanado em 1999 e nos seus primeiros dez
anos de funcionamento processou mais de
160 terabytes (aproximadamente 160 trilhes de bytes) de dados com o auxlio de
mais de 6 milhes de computadores voluntrios (Korpela et al., 2011).
Embora o conceito moderno de cincia
cidad no tenha sido cunhado recentemente
(ele existe desde o sculo XIX), a computao facilitou o seu uso e potencializou seus
benefcios. Diferentemente do que ocorre na
computao voluntria, em que as pessoas
participam de forma passiva, na cincia cidad, um voluntrio colabora com projetos
cientficos ativamente, usando o seu prprio
crebro. Existem diversas atividades relacionadas a coleta e anlise de dados cientficos que no podem ser completamente
automatizadas. nessas atividades que a
ajuda de cidados no especialistas pode ser
bem-vinda. Alm disso, a inteligncia e o conhecimento coletivo tm grande valia em vrios domnios da cincia. A Citizen Science
Alliance (CSA)9 apoia, desenvolve e gerencia
projetos de cincia cidad que se amparam
na Internet. Um dos projetos mantidos pela
CSA o Ancient Lives10, da Universidade
de Oxford, cujo objetivo decifrar um importante conjunto de manuscritos greco-romanos encontrados prximo cidade de
Oxirrinco, no Egito, entre 1897 e 1907. Os
voluntrios consultam, no stio Web do projeto, imagens de fragmentos dos manuscritos
e fazem a transcrio dos caracteres identificveis. Essas transcries so combinadas ao
conhecimento de especialistas e aos resultados de anlises computacionais das imagens,

agilizando assim o processo de identificao


dos documentos.
Exemplos de projetos como o Ancient Lives, que associam a computao s cincias
sociais e humanas, eram (at pouco tempo
atrs) relativamente infrequentes. Entretanto,
hoje, dados em grande escala (big data) esto sendo coletados por meio de dispositivos
eletrnicos (como aparelhos celulares, computadores de mo, GPSs, etc.), que esto cada
dia mais integrados ao cotidiano das pessoas.
Esses dados so o objeto de estudo da cincia
social computacional, que investiga fenmenos sociais por intermdio da computao e,
em particular, de tecnologias avanadas de
processamento de informaes.
Segundo o prof. Alex Pentland (2012),
[] a habilidade de ver os detalhes do mercado, das revolues polticas, e ser capaz de
prediz-las e control-las , definitivamente,
um caso de fogo de Prometeu ela pode ser
usada para o bem ou para o mal; e, assim,
Big Data nos conduz a tempos interessantes. Terminaremos por reinventar o que significa ter uma sociedade humana.
Pentland dirige o laboratrio Human
Dynamics do MIT e considerado um pioneiro da cincia social computacional e um
dos maiores cientistas de dados do mundo
(OReilly, 2011). Em seus projetos de pesquisa mais recentes, Pentland tem usado dados
coletados a partir de equipamentos como telefones celulares para fazer o que ele chama
de minerao da realidade: a identificao
de padres humanos de comportamento individual ou coletivo. Esses padres podem
se relacionar a diferentes aspectos humanos,
como a comunicao e a movimentao.
Padres como esses podem ser usados, por
exemplo, no rastreamento de aes terroristas ou no monitoramento preventivo do trfego de uma cidade. As aplicaes prticas
desse tipo de estudo so inmeras.
Apesar dos vrios cenrios bem-sucedidos
que ilustram este texto, a e-science ainda est
longe da realidade de muitas instituies de
pesquisa do mundo todo. A justificativa mais

REVISTA USP SO PAULO N. 97 P. 71-80A MARO/ABRIL/MAIO 2013

frequente para esse fato a falta de recursos fsicos, humanos e financeiros para criar e manter o ambiente computacional mnimo que
um requisito para a prtica da e-science. Entretanto, o surgimento de uma nova tecnologia
renovou as esperanas da comunidade cientfica em tornar a e-science mais acessvel.
Essa tecnologia a computao em nuvem.

CINCIA DA NUVEM
Plataformas de computao em nuvem revolucionaram a indstria de tecnologia da informao ao permitir que, pela primeira vez,
grandes quantidades de recursos computacionais (por exemplo, armazenamento, processamento ou aplicaes) fossem oferecidas aos
usurios como um servio sob demanda. Uma
nuvem abstrai uma estrutura computacional
complexa, tornando-a disponvel aos usurios
atravs de interfaces simples e acessveis por
uma rede (como a Internet). Outras caractersticas essenciais de uma nuvem so: compartilhamento de recursos, elasticidade (servios
podem ser alocados e liberados rapidamente,
conforme a demanda) e servio mensurado
(o que permite um uso mais eficiente dos
recursos por parte tanto dos usurios quanto dos provedores de servios de nuvem).
Atualmente, um dos grandes desafios
cientficos em computao conseguir efetivamente fazer e-science em nuvens computacionais. Antes, aplicaes que demandavam muito processamento eram executadas
em aglomerados ou em supercomputadores
paralelos (HPC, de high-performance computing). Hoje, uma tendncia clara o uso
da nuvem para o processamento de alto
desempenho. Tanto que a Amazon EC211,
um dos maiores provedores de servios de
nuvem, atualmente oferece uma plataforma
computacional especfica para HPC. Nela,
possvel comprar no apenas mquinas isoladas, mas instncias de aglomerados com as
caractersticas desejadas, como, por exemplo,
a presena de placas aceleradoras grficas
(GPUs) ou redes de alto desempenho.
Como uma forma de mostrar o poder
computacional que uma nuvem pode prover,

em 2011 foi realizado um teste de desempenho, do mesmo tipo que o usado para criar a
lista dos quinhentos supercomputadores mais
rpidos do mundo (projeto Top50012). Para o
teste, foi criada uma instncia de um aglomerado com 1.064 mquinas (17.024 ncleos)
do tipo eight extra large (que o modelo de
mquina mais caro e poderoso disponvel na
Amazon EC2). O desempenho dessa instncia foi equivalente ao de uma mquina com
240,09 TeraFLOPS13, que ficaria na posio 42
entre os maiores supercomputadores do mundo segundo a lista TOP500 de novembro de
2011. Essa mesma mquina ficaria na posio
102 da lista TOP500 de novembro de 2012.
Um dos principais interesses da e-science
relacionados s plataformas de computao
em nuvem a possibilidade de se executarem workflows cientficos. Apesar de todas
as relativas facilidades que existem hoje
para a alocao de aglomerados de mquinas, executar de forma eficiente um workflow
cientfico em um ambiente de nuvem ainda
um desafio. A execuo de um workflow
na nuvem envolve atribuir para cada tarefa
uma mquina e garantir as transferncias dos
dados para as tarefas sempre que necessrio.
Mesmo considerando as diversas garantias oferecidas por meio de contratos de qualidade de servio (SLAs, de service-level agreements), o ambiente fornecido pelas nuvens
no completamente conhecido e controlado. Por exemplo, ao se solicitarem recursos
computacionais na nuvem, no h garantia
de que os recursos fornecidos estaro alocados em uma mesma mquina fsica ou em
mquinas independentes. O desempenho de
um workflow depende de como essa alocao feita. Alm disso, quando um workflow
possui tarefas que trocam grandes quantidades de dados entre si, desejvel que essas
tarefas sejam executadas em mquinas adjacentes ou prximas (para se diminuir o tempo necessrio para a transmisso dos dados
entre as tarefas). Nos modelos tradicionais de
nuvem, no h garantia de que isso acontea.
A execuo de workflows em nuvens pode
se beneficiar do que hoje conhecido como
federao de nuvens, ou seja, nuvens forma-

REVISTA USP SO PAULO N. 97 P. 71-80A MARO/ABRIL/MAIO 2013

11 Amazon Elastic Compute Cloud (Amazon


EC2): http://aws.amazon.com/ec2.
12 P
 rojetoTop500:http://
www.top500.org.
13 U m TeraFLOP corresponde a um trilho de operaes de
ponto flutuante por
segundo.

79

dossi Computao em nuvem

das por diferentes provedores interconectados


entre si. Entretanto, a criao de mtodos eficientes para promover essa interconexo, que
permitir explorar as vantagens oferecidas
por diferentes provedores, ainda um desafio.
Para permitir a execuo de um workflow em
diferentes nuvens simultaneamente, importante que exista a interoperabilidade entre as
nuvens envolvidas. Outros desafios esto ligados a segurana e privacidade (Hashizume,
2013), j que certos workflows podem manipular dados sensveis (com restries de acesso)
ou mesmo dados que s podem ser armazenados em localidades geogrficas predefinidas.
Recentemente, o projeto Magellan14
investigou o potencial da computao em
nuvem. Uma infraestrutura distribuda foi
preparada e foram analisadas diversas aplicaes cientficas em reas variadas, como
a metagenmica e a fsica nuclear e tica.
Entre as principais constataes do estudo,
possvel citar as seguintes:
i niciativas de computao em nuvem
trazem vrias vantagens, como: ambientes personalizados sem um grande custo adicional de administrao (compra e
manuteno), habilidade de se conseguir
mais recursos rapidamente para problemas
maiores e economia de escala;
n a adaptao de aplicaes j existentes para
a execuo em nuvem pode exigir um esforo considervel, que no pode ser negligenciado antes de se decidir pelo uso de nuvens;
n a inda existem vrios desafios nas reas
de gerenciamento de ambientes virtuais,
workflows, dados, segurana, entre outros.
necessrio o desenvolvimento de ferramentas que simplifiquem o uso de computao em nuvem;
na
 plicaes cientficas com pouca movimentao de dados so as que melhor se adaptam
aos ambientes de nuvens. Para outros tipos de
aplicaes, a perda de desempenho em relao a um ambiente dedicado pode ser grande.
n

14 Projeto Magellan
Cloud Computing for
Science: http://www.
alcf.anl.gov/magellan.

80

No incio do sculo XX, o fornecimento de energia eltrica era feito por centrais
eltricas locais, sem conexo umas com

as outras e com caractersticas de tenso e


frequncia diferentes. Pensar em uma rede
eltrica conectada, em que os consumidores
tambm pudessem ser fornecedores, poderia parecer fico cientfica naquela poca.
A computao em nuvem, que proporciona a
obteno de processamento e armazenamento sob demanda, pode chegar a ser em breve
um ambiente completamente integrado, de
forma que o usurio nem saiba se est usando recursos locais ou externos. As possibilidades so inmeras, no s para e-science,
mas para a computao em geral.

DEMOCRATIZAO
DA E-SCIENCE
A cincia da computao deixou de ser
uma ferramenta de apoio para se tornar um
verdadeiro alicerce do processo de criao
de conhecimento em diversas cincias. As
mudanas trazidas pelo uso de seus conceitos, teoremas, tcnicas e mtodos provocaram o surgimento de um novo paradigma de
metodologia cientfica o que hoje se conhece por e-science (ou e-cincia). A coleta
e anlise de uma grande quantidade (antes
inimaginvel) de dados agora possvel com
o uso de computao. Experimentos com novos modelos podem ser realizados de forma
virtual, por meio de tcnicas como simulao. Isso possibilitou novas maneiras de se
fazer cincia. A cincia est se transformando progressivamente em e-cincia.
O uso de novas tcnicas de computao
paralela e distribuda, como a computao
em nuvem, promove a democratizao do
acesso ao poder computacional. Oportunidades de pesquisa que antes eram restritas ao
seleto grupo dos que tinham acesso a supercomputadores agora podem ser exploradas
por milhares de pesquisadores. Espera-se
que a evoluo dessas novas tecnologias,
aliada ao aumento da integrao da cincia
da computao s outras cincias, permita
que todo pesquisador tenha condies de
fazer pesquisa transformativa em qualquer
rea do conhecimento, promovendo novas
mudanas de paradigma na cincia.

REVISTA USP SO PAULO N. 97 P. 71-80A MARO/ABRIL/MAIO 2013

B I B LI O G R AFIA
CARDELLI, Luca. Abstract Machines of Systems Biology, in Transactions on Computational Systems Biology III,
2005, pp. 145-68.
CINTHO, Mina et al. Data-intensive Analysis of HIV Mutations, in IEEE 8th International Conference on
E-Science. Chicago, 2012, pp. 1-7
EMMOTT, Stephen et al. (orgs.). Towards 2020 Science, 2006. Disponvel em: http://research.microsoft.com/
towards2020science/. Acesso em: 12/mar./2013.
HASHIZUME, Keiko. An Analysis of Security Issues for Cloud Computing, in Journal of Internet Services and
Applications, 4:5, 2013.
HEY, Tony et al. (eds.). The Fourth Paradigm: Data-Intensive Scientific Discovery, in Microsoft Research, 2009.
Disponvel em: http://research.microsoft.com/collaboration/fourthparadigm. Acesso em: 12/mar./2013.
JOHNSON, George. The World: In Silica Fertilization; All Science Is Computer Science, in The New York Times,
25/mar./2001. Disponvel em: http://www.nytimes.com/2001/03/25/weekinreview/the-world-in-silicafertilization-all-science-is-computer-science.html. Acesso em: 12/mar./2013.
KORPELA, Eric J. et al. Status of the UC-Berkeley SETI Efforts". Proc. SPIE 8152, in Instruments, Methods, and
Missions for Astrobiology XIV, 815212, 23/set./2011.
KUHN, Thomas S. The Structure of Scientific Revolutions. University of Chicago Press, 1962.
MEYER, Eric. Accessing and Using Big Data to Advance Social Science Knowledge. Oxford Internet Institute,
2013. Pgina Web do projeto de pesquisa: http://www.oii.ox.ac.uk/research/projects/?id=98. Acesso em:
12/mar./2013.
OREILLY, Tim. "The World's 7 Most Powerful Data Scientists", in Forbes, 2/nov./2011. Disponvel em: http://www.
forbes.com/sites/nicoleperlroth/2011/11/02/tim-oreilly-the-worlds-7-most-powerful-data-scientists/. Acesso
em: 12/mar./2013.
PENTLAND, Alex. Reinventing society in the wake of Big Data A Conversation with Alex (Sandy) Pentland. Edge, 30/
ago./2012. Disponvel em: http://www.edge.org/conversation/reinventing-society-in-the-wake-of-big-data.
Acesso em: 12/mar./2013.
RIMKUS, Carolina M. et al. Corpus Callosum Microstructural Changes Correlate with Cognitive Dysfunction in
Early Stages of Relapsing-Remitting Multiple Sclerosis: Axial and Radial Diffusivities Approach, in Multiple
Sclerosis International, v. 2011, 2011, pp. 1-7.
ZHANG, Qi et al. Cloud Computing: State-of-the-art and Research Challenges, in Journal of Internet Services and
Applications, 1(1), pp. 7-18, 2010.

REVISTA USP SO PAULO N. 97 P. 71-80A MARO/ABRIL/MAIO 2013

80A
81

dossi Computao em nuvem

82

textos
REVISTA USP SO PAULO N. 97 P. 71-80A MARO/ABRIL/MAIO 2013

You might also like