You are on page 1of 9

Raspagem de Dados com Web Scraper no Chrome

Sumário
1 – Instalação do Web Scraper no Google Chrome
2 – Raspagem de dados do Portal da Transparência do Governo Federal
3 – Tratamento dos dados no Excel

 PASSO 1 – Instalação do Web Scraper no Google Chrome


1. Acesse a Chrome Web Store. Na caixa “Pesquisa a loja”, digite Web Scraper.

https://chrome.google.com/webstore/category/extensions

2. Clique sobre a opção Web Scraper, oferecida por Martins Balodis, e quando aparecer uma nova janela, clique
em ADICIONAR AO CHROME.
3. Depois de instalada a Extensão, será exibido o ícone de uma teia de aranha no canto
superior direito do navegador.

 PASSO 2 – Raspagem de dados do Portal da Transparência do Governo Federal


1. Acesse o Portal da Transparência do Governo Federal

www.portaldatransparencia.gov.br

2. Na caixa de consulta “Gastos Diretos do Governo”, selecione como Exercício o ano de 2015 e depois a opção
“por Tipo de Despesa”. Clique em “consultar”.

Observe que, além da primeira página com os 15 primeiros resultados, um link mais abaixo mostra que há mais 5
páginas com o restante dos dados.

3. Clique no link “Próxima” e visualize a página seguinte com mais informações. Observe que na caixa de
endereço do navegador, há a seguinte URL (com destaque para o final, onde se encontra escrito “Pagina=2”):

http://www.portaldatransparencia.gov.br/PortalComprasDiretasEDDespesas.asp?Ano=2015&Pagina=2

Sendo clicado o link “Próxima” mais uma vez, a URL muda para “Pagina=3”.

http://www.portaldatransparencia.gov.br/PortalComprasDiretasEDDespesas.asp?Ano=2015&Pagina=3

E se for selecionado o link “Última”, a URL fica com “Pagina=6”.

http://www.portaldatransparencia.gov.br/PortalComprasDiretasEDDespesas.asp?Ano=2015&Pagina=6
4. É importante também saber com quais tags HTML os dados exibidos na página estão marcados. Para isso,
vamos usar o Web Inspector.

Clique com o botão DIREITO do mouse sobre qualquer área da linha verde onde se encontram os títulos da lista
de resultados (“Grupo de Despesa”, “Elemento de Despesa” e “Total no Ano (R$)”. Escolha a opção
INSPECIONAR.

Observe na imagem ampliada do código que o título da lista está submetido à tag <TH>, do HTML. E que essa tag,
por sua vez, é parte da tag <TABLE> mais acima. Portanto, os conteúdos da página estão organizados em uma
tabela, cuja estrutura é organizada, simplificadamente, da seguinte forma:

<TABLE>
<TH>Grupo de Despesa</TH>
<TH>Elemento de Despesa </TH>
<TH>Total no Ano (R$)</TH>
<TR>
<TD>Amortização e Juros da Dívida</TD>
<TD>21 - Juros sobre a Dívida por Contrato</TD>
<TD>811.288.666,94</TD>
</TR>
<TR>
<TD>Amortização e Juros da Dívida</TD>
<TD>23 - Juros, Deságios e Descontos da Dívida Mobiliária</TD>
<TD>207.478.090.261,52</TD>
</TR>
...
...
</TABLE>

5. Vamos começar a raspagem. Ainda com o Web Inspector aberto, clique na opção Web Scraper (o último item
da lista).

A extensão exibe 3 opções: SITEMAPS, SITEMAP e CREATE NEW SITEMAP.

6. Clique em CREATE NEW SITEMAP e depois em CREATE SITEMAP. Preencha os campos a seguir:

 Sitemap name: (dê um nome para o seu SiteMap, somente com caixa baixa, sem acentos e espaços em
branco) – chamarei de gastos-diretos.
 Start URL: copie a URL da página que se encontra aberta e cole aqui.

http://www.portaldatransparencia.gov.br/PortalComprasDiretasEDDespesas.asp?Ano=2015&Pagina=6

Para que todas as 6 páginas com as informações sejam raspadas, acrescente ao final da URL a seguinte mudança
[1-6]. Veja como fica a URL:

http://www.portaldatransparencia.gov.br/PortalComprasDiretasEDDespesas.asp?Ano=2015&Pagina=[1-6]

Agora, clique no botão CREATE SITEMAP.


7. Agora é hora de definir qual elemento do código da página vamos selecionar para que a raspagem seja
realizada.

Clique no botão ADD NEW SELECTOR.

8. Observe que uma nova janela é exibida. Preencha os seguintes campos:

 Id: dê um nome para o seletor (ou tag) que teremos como marcador do conteúdo nas páginas. Qualquer
nome pode ser dado, mas como se trata de uma tabela (como vimos no tópico 4), vou chamá-lo de
tabela.
 Type: quando este item é selecionado, várias opções são exibidas. Como sabemos que o conteúdo está
sendo apresentado na forma de uma tabela (<TABLE>), vamos escolher a opção Table.
 Selector: Nesta opção clique no botão SELECT e depois na linha de cor verde onde ficam os títulos da
tabela (“Grupo de Despesa”, “Elemento de Despesa” e “Total no Ano (R$)”).
Observe que toda a tabela fica destacada em cor vermelha, indicando que os dados foram selecionados. Para
confirmar a seleção, não esqueça de clicar no botão azul DONE SELECTING!.

Os campos Header row selector e Data rows selector são preenchidos. E a Table columns é preenchida com os
nomes das colunas na tabela do site.

Agora é a vez de marcar a opção MULTIPLE, já que a tabela se propaga por 5 outras páginas.

Para finalizar essa etapa, clique no botão SAVE SELECTOR.


9. Na nova tela o botão DATA PREVIEW, se clicado, exibe uma prévia dos dados já raspados da primeira página.

10. Mas os dados ainda não foram raspados. Feche a janela data Preview e depois clique em SITEMAP (gastos-
diretos). Selecione a opção SCRAPE. Deixe a tela a seguir com os valores já propostos e clique em START
SCRAPING.

Quando for informado o fim da raspagem, clique em SITEMAP (gastos-diretos) e depois em EXPORT DATA AS
CSV. Terminada a exportação, clique em DOWNLOAD NOW. Será baixado para o computador o arquivo gastos-
diretos.csv.
 PASSO 3 – Tratamento dos dados no Excel

1. Abra o programa Excel e depois em ARQUIVO > ABRIR. Para que o arquivo CSV seja exibido, é preciso substituir
a opção Todos os Arquivos do Excel por Todos os Arquivos. Selecione o arquivo gastos-diretos.csv e depois
clique em ABRIR.

Na janela a seguir, deixe a opção DELIMITADO marcada e clique em AVANÇAR.

2. Desmarque a caixa TABULAÇÃO e escolha VÍRGULA. Clique em AVANÇAR.


3. Deixe marcada a opção GERAL e clique em CONCLUIR.

4. Pronto! Os dados raspados podem agora ser trabalhados na planilha.


Ajuste as larguras das células e comece o tratamento.

You might also like