Professional Documents
Culture Documents
Sumário
1 – Instalação do Web Scraper no Google Chrome
2 – Raspagem de dados do Portal da Transparência do Governo Federal
3 – Tratamento dos dados no Excel
https://chrome.google.com/webstore/category/extensions
2. Clique sobre a opção Web Scraper, oferecida por Martins Balodis, e quando aparecer uma nova janela, clique
em ADICIONAR AO CHROME.
3. Depois de instalada a Extensão, será exibido o ícone de uma teia de aranha no canto
superior direito do navegador.
www.portaldatransparencia.gov.br
2. Na caixa de consulta “Gastos Diretos do Governo”, selecione como Exercício o ano de 2015 e depois a opção
“por Tipo de Despesa”. Clique em “consultar”.
Observe que, além da primeira página com os 15 primeiros resultados, um link mais abaixo mostra que há mais 5
páginas com o restante dos dados.
3. Clique no link “Próxima” e visualize a página seguinte com mais informações. Observe que na caixa de
endereço do navegador, há a seguinte URL (com destaque para o final, onde se encontra escrito “Pagina=2”):
http://www.portaldatransparencia.gov.br/PortalComprasDiretasEDDespesas.asp?Ano=2015&Pagina=2
Sendo clicado o link “Próxima” mais uma vez, a URL muda para “Pagina=3”.
http://www.portaldatransparencia.gov.br/PortalComprasDiretasEDDespesas.asp?Ano=2015&Pagina=3
http://www.portaldatransparencia.gov.br/PortalComprasDiretasEDDespesas.asp?Ano=2015&Pagina=6
4. É importante também saber com quais tags HTML os dados exibidos na página estão marcados. Para isso,
vamos usar o Web Inspector.
Clique com o botão DIREITO do mouse sobre qualquer área da linha verde onde se encontram os títulos da lista
de resultados (“Grupo de Despesa”, “Elemento de Despesa” e “Total no Ano (R$)”. Escolha a opção
INSPECIONAR.
Observe na imagem ampliada do código que o título da lista está submetido à tag <TH>, do HTML. E que essa tag,
por sua vez, é parte da tag <TABLE> mais acima. Portanto, os conteúdos da página estão organizados em uma
tabela, cuja estrutura é organizada, simplificadamente, da seguinte forma:
<TABLE>
<TH>Grupo de Despesa</TH>
<TH>Elemento de Despesa </TH>
<TH>Total no Ano (R$)</TH>
<TR>
<TD>Amortização e Juros da Dívida</TD>
<TD>21 - Juros sobre a Dívida por Contrato</TD>
<TD>811.288.666,94</TD>
</TR>
<TR>
<TD>Amortização e Juros da Dívida</TD>
<TD>23 - Juros, Deságios e Descontos da Dívida Mobiliária</TD>
<TD>207.478.090.261,52</TD>
</TR>
...
...
</TABLE>
5. Vamos começar a raspagem. Ainda com o Web Inspector aberto, clique na opção Web Scraper (o último item
da lista).
6. Clique em CREATE NEW SITEMAP e depois em CREATE SITEMAP. Preencha os campos a seguir:
Sitemap name: (dê um nome para o seu SiteMap, somente com caixa baixa, sem acentos e espaços em
branco) – chamarei de gastos-diretos.
Start URL: copie a URL da página que se encontra aberta e cole aqui.
http://www.portaldatransparencia.gov.br/PortalComprasDiretasEDDespesas.asp?Ano=2015&Pagina=6
Para que todas as 6 páginas com as informações sejam raspadas, acrescente ao final da URL a seguinte mudança
[1-6]. Veja como fica a URL:
http://www.portaldatransparencia.gov.br/PortalComprasDiretasEDDespesas.asp?Ano=2015&Pagina=[1-6]
Id: dê um nome para o seletor (ou tag) que teremos como marcador do conteúdo nas páginas. Qualquer
nome pode ser dado, mas como se trata de uma tabela (como vimos no tópico 4), vou chamá-lo de
tabela.
Type: quando este item é selecionado, várias opções são exibidas. Como sabemos que o conteúdo está
sendo apresentado na forma de uma tabela (<TABLE>), vamos escolher a opção Table.
Selector: Nesta opção clique no botão SELECT e depois na linha de cor verde onde ficam os títulos da
tabela (“Grupo de Despesa”, “Elemento de Despesa” e “Total no Ano (R$)”).
Observe que toda a tabela fica destacada em cor vermelha, indicando que os dados foram selecionados. Para
confirmar a seleção, não esqueça de clicar no botão azul DONE SELECTING!.
Os campos Header row selector e Data rows selector são preenchidos. E a Table columns é preenchida com os
nomes das colunas na tabela do site.
Agora é a vez de marcar a opção MULTIPLE, já que a tabela se propaga por 5 outras páginas.
10. Mas os dados ainda não foram raspados. Feche a janela data Preview e depois clique em SITEMAP (gastos-
diretos). Selecione a opção SCRAPE. Deixe a tela a seguir com os valores já propostos e clique em START
SCRAPING.
Quando for informado o fim da raspagem, clique em SITEMAP (gastos-diretos) e depois em EXPORT DATA AS
CSV. Terminada a exportação, clique em DOWNLOAD NOW. Será baixado para o computador o arquivo gastos-
diretos.csv.
PASSO 3 – Tratamento dos dados no Excel
1. Abra o programa Excel e depois em ARQUIVO > ABRIR. Para que o arquivo CSV seja exibido, é preciso substituir
a opção Todos os Arquivos do Excel por Todos os Arquivos. Selecione o arquivo gastos-diretos.csv e depois
clique em ABRIR.