Monografia Pronta 1

DEPARTAMENTO DE POLÍCIA FEDERAL
MARCELO DE MELO PASSOS
O GERENCIAMENTO DA INFORMAÇÃO NA DCOR/DPF:
Segurança, eficiência na coleta, compilação e difusão das
informações às unidades descentralizadas.
(PROJETO PROMETHEUS)
BRASÍLIA/DF – OUTUBRO 2006

MARCELO DE MELO PASSOS
O gerenciamento da informação na DCOR/DPF:
Trabalho de Conclusão de Curso apresentado à

Banca Especializada do Departamento de Polícia
Federal, para a aprovação no XIV Curso Especial de
Polícia, sob a orientação do Professor
______________________________ (titulação e nome
completo do Professor-Orientador), como pré-
requisito à formação do Curso.
2

DEPARTAMENTO DE POLÍCIA FEDERAL
XIV CURSO ESPECIAL DE POLÍCIA
FOLHA DE APROVAÇÃO
O gerenciamento da informação na DCOR/DPF:
Trabalho de Conclusão de Curso apresentado

pelo aluno Marcelo de Melo Passos,
matriculado no XIV Curso Especial de Polícia,
em sessão solene, ao(s) _____ dia(s) do mês de
_____________ do ano de 2006, aos membros
da Banca Especializada do DEPARTAMENTO
DE POLÍCIA FEDERAL – Brasília/DF, abaixo
relacionados, como pré-requisito à formação
do Curso.
_______________________________________
Presidente da Banca
_______________________________________
1º Membro
_______________________________________
2º Membro
Agradeço ao Diretor de Combate ao Crime

Organizado, Delegado de Polícia Federal
Doutor Getúlio Bezerra Santos por acreditar no
Projeto e na minha capacidade profissional,
possibilitando que seguisse adiante vencendo
as resistências do caminho.
“Você não pode ensinar nada a um homem;
você pode apenas ajudá-lo a encontrar a
resposta dentro dele mesmo.”
Galileu Galilei
RESUMO
O presente trabalho tem como objetivo analisar a necessidade do

gerenciamento das informações na DCOR/DPF de forma compartilhada, segura,
controlada e compartimentada e da unificação em bancos de dados das informações
dispersas entre as Unidades Descentralizadas, Superintendências e este Órgão
Central, dedicados ao combate ao Crime Organizado. O uso do software Google
Desktop Search adaptado a esta finalidade, batizada pelo Autor como Projeto
Prometheus. Serão enfocados os aspectos teóricos a respeito da extração de
conhecimento a partir de bases de dados, detalhes do funcionamento do Projeto e
os resultados práticos obtidos até a presente fase de testes em curso na DCOR/DPF
e a Superintendência da Polícia Federal de Brasília/DF, demonstrando a excelência
e necessidade do uso do Projeto Prometheus como instrumento de pesquisa ágil,
consistente, segura e de baixo custo. Método revolucionário de administração de
bases de dados. Economia de espaço em mídia digital e alimentação automatizada,
dispensando a necessidade de recursos humanos dedicados à inserção de dados.
Auxílio inestimável aos Analistas das investigações policiais e operações levadas a
efeito no âmbito do combate ao Crime Organizado.
Palavras-chave: Gerenciamento de informações. Obtenção de conhecimento a

partir de bases de dados. Mecanismos de busca. Google Desktop search e o
Projeto Prometheus. Unificação de banco de dados para combate ao crime
organizado.
ABSTRACT
This study presents the purpose to analyze the necessity of administrate the
information created inside DCOR/DPF environment, caring about sharing, security,
control and access delimitations, attempting to unify diffuse data spread between all
of Brazilian Federal Police Departments, Bureaus, and this Central Department
dedicated to fight against the organically structured crime. The use of Google
Desktop Search software, adapted to realize this job, called as “Prometheus Project”
by the Author. Here will be discussed the speculative aspects about knowledge
discovery in databases, details about working with this Project and the results
obtained until the present date, testing and working on it at DCOR/DPF, together with
Brasília/DF Bureau of Federal Police Department, proving the well done job and the
necessity of the use of this project as a investigation research tool with agility,
effectively, security and low cost. Revolutionary method administrating databases.
Economy of digital media space and self growth, avoiding human resources to work
inserting data. Essential to analysts that investigate and operate against the
organically structured crime.
Keywords: Information management. Knowledge discovery in databases. Search

mechanisms. “Google Desktop search” and “Prometheus Project”. Database
unification to fight against the organically structured crime.
LISTA DE ILUSTRAÇÕES
Ilustração 1..............................................................................................................................10
Ilustração 2..............................................................................................................................26
Ilustração 3..............................................................................................................................43
Ilustração 4..............................................................................................................................56
Ilustração 5..............................................................................................................................60
Ilustração 6..............................................................................................................................63
Ilustração 7..............................................................................................................................65
Ilustração 8 .............................................................................................................................65
Ilustração 9..............................................................................................................................67
Ilustração 10............................................................................................................................74
Ilustração 11............................................................................................................................75
Ilustração 12............................................................................................................................77
Ilustração 13............................................................................................................................78
Ilustração 14............................................................................................................................79
Ilustração 15............................................................................................................................92
Ilustração 16............................................................................................................................93
Ilustração 17............................................................................................................................94
Ilustração 18............................................................................................................................94
Ilustração 19............................................................................................................................95
Ilustração 20............................................................................................................................95
Ilustração 21............................................................................................................................98
Ilustração 22..........................................................................................................................101
Ilustração 23..........................................................................................................................102
Ilustração 24..........................................................................................................................102
Ilustração 25..........................................................................................................................103
Ilustração 26..........................................................................................................................107
Ilustração 27..........................................................................................................................108
Ilustração 28..........................................................................................................................110
Ilustração 29..........................................................................................................................112
Ilustração 30..........................................................................................................................124
Ilustração 31..........................................................................................................................124
Ilustração 32..........................................................................................................................125
LISTA DE ABREVIATURAS E SIGLAS
CGPRE – Coordenação Geral de Combate a Entorpecentes
CTI/DPF – Centro de Tecnologia da Informação do Departamento de Polícia Federal.
DARM/DCOR – Divisão de Combate ao Crime de Tráfico de armas e munições.
DCOR/DPF - Diretoria de Combate ao Crime Organizado do Departamento de Polícia
Federal.
DCOR7 – Nome do domínio de informática criado na Diretoria de Combate ao Crime
Organizado (Dcor7. Dpf.gov.br).
DFIN/DCOR – Divisão de Combate aos Crimes Financeiros.
DPAT/DCOR – Divisão de Combate aos Crimes contra o Patrimônio.
DPF – Departamento de Polícia Federal.
DRCOR – Diretoria Regional de Combate ao Crime Organizado
NUINF – Núcleo de Informática.

SR/DPF/DF – Superintendência de Polícia Federal do Distrito Federal
SR/DPF/PR – Superintendência de Polícia Federal do Estado do Paraná
SUMÁRIO
1 INTRODUÇÃO ...................................................................................................................10
2 GERENCIAMENTO DE INFORMAÇÕES ....................................................................14
2.1 Dados e Informações.....................................................................................................................................15
2.2 A sociedade e a informação..........................................................................................................................17
2.3 As fontes de informação................................................................................................................................18
2.4 Requisitos de informação por nível administrativo.......................................................................................19
2.5 Atributos da informação................................................................................................................................21
2.6 Significado estratégico da informação..........................................................................................................23
2.7 A política de informação...............................................................................................................................24
3 BANCO DE DADOS .............................................................................................................1
3.1 A descoberta do conhecimento em Banco de dados.......................................................................................1
3.1.1 Knowledge Discovery in Databases (KDD)................................................................................................4
3.2 Mineração de dados – (MD)............................................................................................................................7
3.3 Recuperação da informação – Ensaio na Internet – Metadados e Metabusca..............................................11
3.4 Representação e economia do conhecimento – Semiótica e Metatexto........................................................17
3.4 Ferramentas de busca na Internet – Diretórios e motores de busca..............................................................20
3.4.1 Diretórios....................................................................................................................................................21
3.4.2 Motores de busca........................................................................................................................................23
3.4.3 Critérios para indexação.............................................................................................................................26
3.4.3.1 Critérios para indexação de páginas e documentos.................................................................................28
3.4.4 Freqüência de atualização dos dados ........................................................................................................29
3.4.5 Interface e recursos para busca ..................................................................................................................30
3.4.6 Critérios de organização dos resultados ....................................................................................................32
3.4.6.1 Forma da organização dos resultados .....................................................................................................33
3.5 Diferença entre Motores de Busca e Diretórios - Hibridização ...................................................................34
3.6 “Desktop Search Tools” – Ferramentas de busca dentro da máquina ........................................................36
3.6.1 Tecnologia empregada ..............................................................................................................................39
4 GOOGLE..............................................................................................................................42
4.1 Atualidades sobre o Google – Softwares desenvolvidos..............................................................................46
4.2 Google Desktop Search - GDS......................................................................................................................48
4.2.1 Aspectos legais - EULA – Licença de uso...............................................................................49
4.2.1.1 Análise dos aspectos legais..................................................................................................54
4.2.2 Funcionalidade – forma de compilação das informações........................................................55
4.2.3 Como pesquisar na base de dados..........................................................................................68
4.2.4 Conteúdo do resultado e filtragem das buscas........................................................................73
4.2.5 Plug-ins....................................................................................................................................79
4.2.6 Modo de operação e limitações da utilização em rede............................................................80
5 O PROJETO PROMETHEUS..........................................................................................83
5.1 Conceito......................................................................................................................................85
5.2 DNKA..........................................................................................................................................87
5.2.1 Aspectos legais - EULA do DNKA – Licença de uso................................................................88
5.2.2 Funcionalidade do DNKA.........................................................................................................90
5.3 TWEAK GDS..............................................................................................................................95
5.3.1 Funcionalidade do TWEAK GDS.............................................................................................97
5.4 INTERNET NEIGHBORHOOD...................................................................................................98
5.4.1 Funcionalidade do INTERNET NEIGHBORHOOD................................................................100
5.5 OPERACIONALIZAÇÃO – adequação às necessidades da DCOR/DPF.................................103
5.5.1 Equipamentos utilizados – Hardware – Especificações técnicas...........................................105
5.5.3 Fluxograma de entrada de dados – alimentação – eficiência na coleta.................................109
5.5.3 Fluxograma de saida de dados – Consulta – Difusão às descentralizadas...........................110
5.5.4 Automatização da alimentação do Banco de dados - periodicidade......................................112
5.6 SEGURANÇA...........................................................................................................................113
5.6.1 Senhas e Responsabilidade do Usuário................................................................................114
5.6.2 O uso de cookies e a política de privacidade da GOOGLE...................................................116
5.6.3 Firewall - Controle de acesso e restrição de usuários – Logs e Incidentes de segurança.....119
5.6.4 Transferências FTP seguras .................................................................................................125
5.6.5 Protocolo SSH e Criptografia – Servidor FTP Linux x Windows............................................127
5.6.6 Tráfego na Rede do DPF – Portas e endereços IPs utilizados .............................................129
5.6.7 Compartimentação das Informações – Política de informação na DCOR/DPF.....................131
5.6.8 Parecer informal da Direção da DCOR/DPF, CTI/DPF e NUINF/SR/DPF/DF.......................132
5.7 INTEGRAÇÃO DO PROJETO..................................................................................................133
6 METODOLOGIA..............................................................................................................134
7 CONCLUSÃO....................................................................................................................136
REFERÊNCIAS....................................................................................................................137
1 INTRODUÇÃO
Ilustração 1
"Os benefícios que fiz aos mortais atraíram-me este rigor. Apoderei-me do fogo,
em sua fonte primitiva: ocultei-o num cabo de uma bengala, e ele tornou-se para o
homem a fonte de todas as artes e um recurso fecundo." (Ésquilo, 463 a.C,
Prometheus Desmontes)
Prometheus foi o Titã mitológico que roubou o fogo divino de Zeus para o dar
aos Homens, que assim puderam evoluir e distinguirem-se dos outros animais.
Como castigo Zeus1ordenou que Vulcano2 o acorrentasse a um rochedo no cimo do
monte Cáucaso, onde todos os dias uma águia (ou abutre) ia comer-lhe o fígado
que, sendo Prometheus imortal, voltava a se regenerar. Prometheus representa a
vontade humana por conhecimento, sua captura do fogo é a audácia humana pela
busca de conhecimento e de compartilhá-lo, fogo este guardado por seres maiores
que não permitem tal difusão.
Assim como Prometheus, o presente Projeto, assim batizado por guardar
estreita correlação de propósitos, visa revolucionar o conceito de gerenciamento de
informações, ampliando o conhecimento e seu compartilhamento entre os Policiais
Federais da área de inteligência, visando à formação de um banco de dados
unificado entre todos os Estados da Federação, contendo milhões de informações e
passível de ser implementado e entrar em funcionamento pleno em período inferior a
trinta dias.
Da mesma forma que Prometheus enfrentou a oposição dos deuses para
alcançar seu objetivo, reconhece-se que o “novo” e o “revolucionário” sempre
1
Na mitologia Greco-Romana Zeus era o Deus de todos os Deuses e comandava os destinos dos homens a partir
do Olimpo, morada celestial.
2
Vulcano na mitologia Greco-Romana era um semi-Deus e ferreiro dos Deuses. Forjou os grilhões que
acorrentaram Prometheus.
encontrará resistências. Isso é inerente ao ser humano e às instituições. Destarte, o
Autor, no presente trabalho, irá analisar minuciosamente o tema proposto acerca do
gerenciamento de informações, o uso da informática para tal finalidade, a extração
de conhecimento a partir de bases de dados e toda a problemática pertinente.
Defenderá também com afinco a validade da solução proposta, a fim de não
merecer destino semelhante ao sofrido por seu ilustre e mitológico patrono.
A idéia central reside na escolha do método ideal a ser utilizado em nível
departamental para gerenciar as informações armazenadas e circulantes no âmbito
da Diretoria de Combate ao Crime Organizado, levando-se em conta os aspectos de
segurança, eficiência na coleta, compilação e difusão destas informações às
unidades descentralizadas.
Até pouco tempo atrás não existia padronização alguma acerca do tratamento
das informações no âmbito da citada Diretoria e suas Divisões e o Autor,
Administrador da Rede de Informática local, tem se esforçado na implementação de
soluções nesse sentido. Com a implantação da Rede de informática com Domínio3
autônomo em relação ao modelo adotado pela Administração do Edifício sede do
Departamento de Polícia Federal, houve ganho em segurança, velocidade na
transmissão de dados e independência na gestão de softwares utilizados em rede. A
implantação de software OCR4 de última geração, gerenciado a partir do Servidor
Central, possibilitou a digitalização de todo o tipo de informação impressa a partir de
qualquer scanner conectado a qualquer computador integrante da rede DCOR7 com
99% (noventa e nove por cento) de precisão. Pode-se dizer, portanto, que o
3
Domínio representa a criação de uma rede própria e autônomas onde todas as máquinas encontram-se
subordinadas a um servidor que controla o Domínio (Domain Controller).
4
OCR é acrônimo para Optical Character Recognition, uma tecnologia para reconhecer caracteres a partir de um
ficheiro de imagem, ou mapa de bits. Através do OCR é possível digitalizar uma folha de texto impresso e obter
um ficheiro de texto editável.
tratamento da informação na DCOR/DPF encontra-se a caminho da informatização
plena, aumentando a importância de um bom gerenciamento da rede e do uso de
equipamentos de ponta.
A base de dados da Diretoria de Combate ao Crime Organizado é composta
de pastas de arquivos dentro do Servidor Central, representando as
correspondentes Divisões componentes da DCOR/DPF - excluindo-se a
Coordenação-Geral de Repressão a Entorpecentes, gerida por Núcleo de
Informática próprio - as quais estão subdivididas entre os núcleos administrativo e
operacional respectivamente, além de uma pasta pública e outra ligada à
administração da Diretoria. A permissão de acesso a estas pastas foi definida de
forma rígida, de modo que os funcionários lotados em determinada Divisão ou na
Diretoria tem acesso negado às demais, sendo que todos tem acesso à pasta
pública, que se destina à troca de arquivos e informações entre a Diretoria e as
Divisões, a saber: DFIN/DCOR, DPAT/DCOR E DARM/DCOR.
Tendo em vista a quantidade de informações armazenadas nas respectivas
pastas, que já ultrapassa 150 GB (cento e cinquenta gigabytes), surgem indagações
para as seguintes questões:
• Como gerenciar tão vasta quantidade de informações, cuja base de dados é
progressivamente crescente e desestruturada, de forma quantitativa e
qualitativa?
• Como catalogar e preparar essa base de dados desestruturada, a fim de
disponibilizar para consulta as informações armazenadas de forma rápida e
satisfatória?
• Como facultar o acesso a essas informações às unidades descentralizadas
de forma controlada, compartimentada e sem comprometer a segurança?
• Seria possível a criação de um “Banco de Dados Unificado de Combate ao
Crime Organizado” contendo todas as informações relevantes dispersas pelos
diversos computadores utilizados nas unidades descentralizadas acrescidas
daquelas contidas nos servidores das Superintendências e Órgãos Centrais?
• Em caso de resposta afirmativa às indagações acima elencadas, seria
possível fazê-lo com baixo custo material, econômico e humano sem perda
de eficácia e de fácil utilização por parte dos analistas de informação?
Este trabalho objetiva demonstrar que é possível solucionar todas as
hipóteses levantadas acima através de técnicas heterodoxas, com resultados
surpreendentes, sem paralelo com qualquer trabalho existente acerca do tratamento
da informação e gerenciamento de banco de dados dentro do Departamento de
Polícia Federal.
O Projeto Prometheus, baseado em adaptações do software gratuito Google
Desktop Search seria capaz de realizar satisfatoriamente bem o papel de
gerenciador do banco de dados da DCOR/DPF com custo ínfimo? Este trabalho se
destina a provar isto.
2 GERENCIAMENTO DE INFORMAÇÕES
A importância da informação dentro das organizações aumenta de acordo

com o crescimento da complexidade da sociedade e das organizações. Em todos os
níveis organizacionais (operacional, tático e estratégico) a informação é um recurso
fundamental. A forma com que a informação é trabalhada, de acordo com o nível
organizacional em que irá circular, deve ser observada, sob o risco de, no momento
em que o usuário estiver envolvido em determinado processo decisório, ser-lhe
fornecido apenas "ruído". A eficácia no tratamento da informação depende, em
grande parte, da forma com que ela é administrada e do bom entendimento de
certos conceitos e relações. Não é concebível que um importante e "caro" recurso,
não seja tratado com um grau de seriedade e competência, que assegure à
organização, na figura dos usuários, um bom suporte informacional.
2.1 Dados e Informações
Muitas vezes, os termos dados e informações são usados indistintamente,
quando na verdade designam dois diferentes conceitos. Quando a questão se refere
à tomada de decisão e a sistemas de informações, a definição destes termos é
importante porque traduzem diferentes idéias. Segundo Murdick e Munson (1988, p.
147), a distinção entre dados e informações é importante porque permite definir
separadamente a necessidade das bases de dados e as necessidades de
informação dos gerentes. Isto feito, é possível fornecer ao gerente, informações e
não dados. Alguns conceitos de dados existentes na literatura:
• “pode-se entender o dado como um elemento da informação (um conjunto de letras ou

dígitos) que, tomado isoladamente, não transmite nenhum conhecimento, ou seja, não contém um
significado intrínseco” (Bio, 1991, p.29);
• “Dados são materiais brutos que precisam ser manipulados e colocados em um contexto
compreensivo antes de se tornarem úteis” (Burch e Strater, 1974, p.23);
• “Dado pode ser considerado como uma informação em potencial” (Nichols, 1969, p.9).
Embora dados sejam ingredientes importantes, eles sozinhos não produzem
informações relevantes e oportunas. A organização pode possuir abundância de
dados, mas pode ser limitada em extrair, filtrar e apresentar fatos pertinentes que
supram as necessidades do tomador de decisão. Ou seja, a organização deve
construir sistemas de informações que permitam uma racional transformação dos
dados em informações, subsidiando o processo de tomada de decisão para, desta
forma, contribuir para um melhor desenvolvimento do processo decisório (Bio, 1991).
Alguns conceitos de informação existentes na literatura:
• “Informação é um dado processado de uma forma que é significativa para o usuário

e que tem valor real ou percebido para decisões correntes ou posteriores” (Davis, 1974, p. 32);
• “Informação é a agregação ou processamento dos dados que provêem conhecimento ou

inteligência” (Burch e Strater, 1974, p. 23);
• “A informação é a correspondência dos elementos de um problema com os signos

guardados na memória ou com os provenientes do ambiente” (Murdick e Munson, 1988, p. 148).
A relação entre dados e informações é bastante estreita, embora designem
diferentes estados. Esta relação de proximidade e distinção, é pertinentemente
apresentada por Davis e Olson (1987, p. 209):
• “Em síntese, os termos dados e informação, com freqüência, são utilizados em formas
intercambiais, porém a distinção consiste no fato que os dados elementares são a matéria-
prima para prover a informação”.
Portanto, é importante que os responsáveis pelo desenvolvimento de sistemas
de informações tenham a consciência de que dados não possuem significados para

o tomador de decisão. Somente após o tratamento destes dados pelos recursos
informacionais disponíveis, estes poderão ser transformados em informação e
disponibilizados no momento e forma adequada para serem utilizados com eficiência
pelo usuário. Adota-se, na prática, o seguinte esquema clássico (Davis e Olson,
1987, p.208):
DADOS  PROCESSAMENTO  INFORMAÇÃO  ARMAZENAMENTO
2.2 A sociedade e a informação
A influência da tecnologia na sociedade moderna é bastante intensa,
principalmente no que se refere à tecnologia de informação (TI). A velocidade com
que a TI evolui, tem reflexos diretos na sociedade que a utiliza. Murdick e Munson
(1988, p.3) registram que alguns fatores repercutem diretamente na sociedade e nas
empresas: maior cultura em computação entre os líderes e a população em geral; os
progressos nas telecomunicações como fibras óticas, satélites, redes e bases de
dados a nível internacional; o surgimento, transformação e proliferação dos
microcomputadores; os microcomputadores nas empresas, conectados a
computadores de grande porte, utilizando grandes bases de dados; os
computadores considerados como pensadores analíticos; utilização de "lasers" para
registrar informações em discos; o ser humano conversando com terminais de
computador, utilizando a voz; os "chips" utilizados na computação, etc. Nas
organizações, a informação já é considerada como um recurso básico e essencial,
como são a mão-de-obra e a matéria prima. A informação é vista como um elemento

decisivo que pode determinar o êxito ou fracasso de um empreendimento. Kendall e
Kendall (1991, p.1) comentam que "os responsáveis pela tomada de decisão
começam a considerar que a informação já não é um produto exclusivamente
colateral das operações da empresa e sim, um dos promotores da mesma". Tofler
(1985, p.128-129) acredita que a informação é até mais importante do que os fatores
terra, trabalho, capital e matéria-prima. Freitas (1993, p.33) comenta que o
tratamento da informação pela organização pode ser categorizado como a "função
informacional da empresa" e acredita que: "Este processo é cada vez mais vital para
a empresa e deve ser controlado como todos os outros setores...". A informação,
como um precioso recurso para a organização, deve ser tratada de modo a
contribuir efetivamente para a melhora dos resultados organizacionais. A
organização necessita identificar onde encontrar as informações relevantes para o
seu processo. Esta informação pode ser conseguida em fontes formais e em fontes
informais.
2.3 As fontes de informação
Quanto ao nível de formalização, pode-se classificar as informações como
formais ou informais. As informações formais são aquelas que tramitam pelos canais
convencionais da organização ou entre organizações. Elas podem ser informações
que são geradas dentro da organização ou podem ter sua origem no meio ambiente,
incluindo outras organizações (Murdick e Munson, 1988, p.547). Estas informações
normalmente possuem a característica de ser bem estruturadas. Entre as
informações formais que provêm do ambiente externo, estão incluídas as

correspondências entre organizações, comunicações de órgãos governamentais e
as que tramitam em sistemas computacionais interligados. As informações informais
são aquelas que não possuem nenhum caráter oficial. Este tipo de informação é de
um volume muito grande e tem como característica ser bastante desestruturada.
Este tipo de informação, como as informações formais, pode vir do ambiente ou de
dentro da organização. As informações que provêm do ambiente chegam até os
tomadores de decisão por meio de jornais, televisão, rádio, internet, conversas com
grupos informais, seminários, feiras, congressos, etc. As informações informais de
origem interna são recebidas de várias formas. Podem vir da conversa informal no
restaurante da organização ou no café, podem ser percebidas pelas atitudes dos
integrantes da organização ou mesmo por meio de "fofocas organizacionais"
(Mintzberg, 1975; Kotter, 1982a, 1982b; Revista Exame, jan./94). Braga (1987)
comenta que, devido às características culturais do povo brasileiro, as organizações
utilizam largamente a comunicação verbal e os contatos pessoais como fontes de
informação. As informações formais, tanto de origem interna como externas, podem,
mais facilmente, integrar o sistema de informações da organização. A escolha da
inclusão ou não destas informações, necessariamente passará pela análise de
custo/benefício. As informações informais, dificilmente podem ser incluídas no
sistema de informações, em virtude de normalmente serem bastante
desestruturadas e freqüentemente terem pouca garantia quanto à sua integridade.
2.4 Requisitos de informação por nível administrativo

Os requisitos de informações variam de acordo com o nível administrativo em
que a decisão ocorre. Os gerentes nos níveis operacionais, táticos e estratégicos
necessitam de sistemas de informações com diferentes características. Os gerentes
operacionais necessitam primordialmente de informações de origem interna,
detalhada, sendo bastante precisas e atuais, referindo-se, normalmente, a
acontecimentos passados. Estas informações normalmente são periódicas, muitas
vezes tendo datas estabelecidas para sua divulgação. A utilização da informação é
bem definida a uma determinada situação. Para os gerentes do nível operacional as
informações externas normalmente possuem menor valor.
Os gerentes no nível estratégico, por sua vez, geralmente precisam
informações resumidas, apresentadas na forma de quadros, tabelas ou gráficos.
Como estes gerentes tomam decisões mais abrangentes, precisam conhecer o
contexto em que a organização está inserida. Portanto, as informações provenientes
do meio ambiente lhes interessam bastante. Estas informações não precisam ser
muito exatas e atuais. A utilização desta informação é esporádica. Necessitam de
informações de natureza preditiva para que possam planejar e decidir sobre como a
organização deve se comportar para que tenha uma melhor performance.
Os gerentes no nível tático possuem necessidade de informações com
características que se situam entre as informações necessárias aos gerentes do
nível operacional e aos gerentes do nível estratégico. Os requisitos de informações
são bastante diferentes, principalmente entre os níveis operacionais e estratégicos.

2.5 Atributos da informação
As informações fornecidas por um sistema de informações devem atender a
alguns atributos da informação para que possam ser significativas no momento da
tomada de decisão. Quando estes atributos não são observados, a própria eficiência
do sistema começa a ser questionada. Murdick e Munson (1988, p. 149), Davis e
Olson (1987) e Davis (1974) elencam estes atributos:
finalidade - a informação necessita ter uma finalidade quando é transmitida para um
sistema de informações ou para uma pessoa. Caso contrário, ela deixa de ser
informação para ser apenas um ruído;
modo e formato - o ser humano se comunica por meio dos cinco sentidos e, em
suas atividades dentro da organização, principalmente pela audição e visão, em
conversas ou leitura de relatórios, gráficos ou telas. A forma com que os sistemas
recebem ou fornecem informações é muito importante para a realização de seus
objetivos;
redundância e eficiência - a redundância é uma forma de se garantir contra os
erros de comunicação. A eficiência na linguagem dos dados é o complemento da
redundância: Eficiência = 1 - Redundância;
velocidade - a velocidade de recepção ou transmissão da informação é o tempo
gasto para se entender um determinado problema. Os seres humanos possuem
baixa velocidade em receber, armazenar ou transmitir informações;
freqüência - a freqüência com que se recebe ou transmite a informação é um
indicador de seu valor. Entretanto, a alta freqüência da informação pode
sobrecarregar o receptor;
determinística ou probabilística - a informação probabilística admite um conjunto
de resultados possíveis com suas probabilidades correspondentes, enquanto que as
determinísticas normalmente admitem apenas um resultado;
custo - toda informação possui um custo. O responsável pelos sistemas de
informações e os gerentes devem avaliar o valor da informação e o seu custo;
valor - o valor de uma informação é muito difícil de se determinar e depende muito
de outras características como modo, velocidade, freqüência, características
determinísticas ou probabilísticas, confiabilidade e validade;
confiabilidade e precisão - em uma estimativa estatística, o valor real do parâmetro
ficará dentro de um determinado período. Caso este período seja diminuído,
aumenta-se a precisão diminuindo-se a confiabilidade. Caso contrário diminui-se a
precisão e aumenta-se a confiabilidade;
exatidão - mede a proximidade de um número com o que deveria ser;
validade - mede o grau em que representa o que deveria representar;
atualidade - designa a antigüidade da informação;
densidade - indica o volume de informação presente em um relatório ou tela;
corretiva - se vem para corrigir uma informação passada; e
confirmatória - quando confirma uma informação já existente.
Além destes atributos, é necessário que a informação seja relevante para a
situação. De nada adianta que a informação possua todos os atributos citados, se
não é pertinente à situação que o executor está enfrentando. Bio (1991, p.45)
comenta a importância destas características em relação à tomada de decisão: "a
essência do planejamento é a tomada de decisões. Essa, por sua vez, depende de
informações oportunas, de conteúdo adequado e confiável." A observação dos

atributos de informação, tanto para a construção, quanto para a avaliação de
sistemas de informações é fundamental. A não observação destes atributos muito
provavelmente resultará no fracasso do sistema.
2.6 Significado estratégico da informação
Apesar dos problemas relacionados com a tecnologia da informação e
utilização dos recursos da informática, a importância competitiva da informação é
consenso entre vários autores. Para Davenport et al (1992, p. 53), os executivos já
perceberam esta importância: "durante a década passada, várias organizações
entenderam que a informação é um de seus mais críticos recursos sendo que o
grande acesso, utilização e o aumento de sua qualidade é a chave para aumentar a
performance do negócio". Esta opinião também é compartilhada por Brancheau e
Wetherbe (1987), que acrescentam que os administradores de sistemas de
informações, estão se preocupando principalmente com a utilização da informação
em questões estratégicas. Kini (1993, p. 42) salienta que as informações utilizadas
em questões estratégicas é um fator que aumenta a vantagem competitiva das
organizações. Acredita-se que a importância da informação para a gestão
competitiva das empresas é indiscutível. O entendimento desta questão pela
organização, e principalmente pelos gerentes, varia de contexto para contexto.
Alguns fatores, como experiências anteriores negativas, falta de recursos
tecnológicos, desconhecimento e cultura organizacional, dificultam o entendimento
da informação como um fator competitivo. Organizações que conseguem trabalhar a
informação de uma forma satisfatória, certamente terão melhor desempenho.

2.7 A política de informação
A política de informação existente na organização vai influenciar as
características dos sistemas de informações utilizados pelos gerentes. A política de
informação deve estar em acordo com a estratégia geral da organização. Deve
haver sincronismo entre o planejamento estratégico da organização e sua política de
informação. Mendes (1987, p.175) registra:
a Informática tem participado intensamente na empresa moderna
para o cumprimento de suas estratégias. Isto é, ela pode se vincular
diretamente com os objetivos da organização. Os altos executivos,
responsáveis únicos pela formulação de tais estratégias, necessitam
pois, participar igualmente na definição das estratégias de informática.
A organização deve definir sua política geral de informática para que,
mediante a racionalização dos recursos, possa tirar melhor proveito da informação,
visando melhorar seu desempenho e alcançar seus objetivos de uma forma mais
eficaz. Davenport et al (1992) definem cinco tipos de política de informação:
utópico tecnocrático - a forte abordagem técnica como solução para todos os
problemas. Enfoca fortemente a modelagem e categorização da informação e está
sempre atenta a novas tecnologias de software e de hardware;

anárquico - inexistência de qualquer política de gerenciamento de informação. Os
indivíduos determinam seus próprios sistemas de informações e a forma de
gerenciá-los;
feudalista - o gerenciamento da informação por unidades ou funções individuais,
que definem suas próprias necessidades de informações, reportando somente parte
das informações para a organização;
monárquico - o gerenciamento da informação é ditado pelo líder da organização
que define o sistema de informações e o nível de acesso dos demais componentes
da organização; e
federalista - o gerenciamento da informação é feito com a participação de
determinados elementos da organização. O objetivo é que a política seja
determinada como resultado do consenso.
Estes tipos de política de informação podem ser usados na definição da
política e na identificação das políticas já adotadas pela organização. Todos estes
tipos de política possuem vantagens e desvantagens e a escolha da organização
deve ser baseada no contexto em que ela está inserida e nas perspectivas futuras. A
empresa pode optar pela implantação de uma política híbrida que agregue mais de
um diferente tipo. Entretanto, sua implantação é um processo complexo e difícil,
exigindo um grande esforço. Davenport et al (1992, p.64) registram:
Efetivamente, o gerenciamento da política da informação requer uma

mudança na cultura organizacional, novas tecnologias e, nem novos
executivos sozinhos são suficientes para fazer isto acontecer. O
gerenciamento da informação precisa que todos os gerentes apóiem e
muitos participem. Eles precisam ver a informação como elemento
importante para seus sucessos, estando dispostos a gastarem tempo e
energia negociando para encontrar suas necessidades de informação.
A organização, principalmente os responsáveis pelas suas decisões
estratégicas, precisa pensar na informação como um de seus mais importantes
componentes. Furlan (1991, p. 6) comenta que o planejamento estratégico dos
sistemas de informações deve estar contido no próprio planejamento estratégico da
organização. Martin (1991, p. 14-15) inclui o planejamento estratégico de
informações no topo de seu modelo de pirâmide das fases da metodologia de
engenharia da informação. Torres (1991), e também Kugler e Fernandes (1984)
concordam com a integração do planejamento da informação. Torres (1991, p. 53)
alerta que o planejamento da informática deve atentar para três preocupações
básicas:
• qual é a filosofia de informações que a empresa deseja perseguir, incluindo
o grau de disseminação de recursos pretendido, a autonomia desejada para
as áreas (em termos de sistemas de informações, entre outros aspectos);
• como as tecnologias de informações podem contribuir para um melhor
posicionamento estratégico, econômico e organizacional para a empresa; e
• como a empresa deve tratar a sua evolução, em termos de atualização e
capacitação permanente quanto às tecnologias de informações.
A organização não pode correr o risco de investir em recursos, sejam eles
humanos, de software ou de hardware, sem um planejamento adequado que
contemple a organização como um todo. O trabalho de informatização deve ser feito
de maneira integrada e, mesmo que conduzido de forma gradativa, os subprojetos
de informatização necessitam estar integrados e correlacionados, compondo um
projeto global.
1
3 BANCO DE DADOS
Basicamente, podemos caracterizar um Banco de Dados como um conjunto
de informações relacionadas entre si, referentes ao mesmo assunto, organizadas
prática e racionalmente, para que o usuário levante e recupere informações, tire
conclusões e tome decisões.
Boa parte das técnicas de descoberta de conhecimento tem sua aplicação no
apoio a gestores de diversos segmentos em que há disponibilidade de banco de
dados. A popularização e redução dos preços dos computadores e a automação de
muitas empresas e estatais têm resultado em grandes volumes de dados, tornando
insuficientes os métodos tradicionais de análise. Existe uma necessidade
significante por uma nova geração de técnicas e ferramentas com habilidades para
assessorarem humanos a analisar montanhas de dados de forma inteligente e
automática através do fornecimento de conhecimento resumido e estratégico
(Fayyad et al., 1996a). Muitas empresas e instituições governamentais estão
iniciando a exploração de seus dados, através da construção de Data Warehouse5 e
ferramentas de extração de conhecimento, como o KDD6 - Knowledge Discovery in
Databases e a Mineração de Dados (MD)7, com o objetivo de reduzir custos e
otimizar a qualidade de seus produtos e serviços.
3.1 A descoberta do conhecimento em Banco de dados

5
Data Warehouse: sistema de computação utilizado para armazenar informação relativa às atividades de uma
organização em bancos de dados, de forma consolidada.
6
KDD: Mineração de dados também conhecida como descoberta de conhecimento em Banco de dados. É a
pratica de procurar em grandes volumes de dados em busca de padrões.
7
MD: Mineração de dados. Pesquisa de informação em banco de dados.
2
“O objetivo é a extração de conhecimento de alto nível a partir de dados de
baixo nível disponíveis em grandes bancos de dados” (Fayyad et al., 1996b).
O termo “Descoberta de Conhecimento em Banco de Dados” (KDD –
Knowledge Discovery in Databases) surgiu no primeiro workshop de KDD em 1989,
para enfatizar que o produto final do processo de descoberta em banco de dados
era o “conhecimento” (Fayyad et al., 1996b). Nos anos subseqüentes foram
promovidos outros workshops, sendo que o último (quinto) foi realizado em 1994.
Em 1995 foi realizada a Primeira Conferência Internacional sobre este tema. No ano
seguinte, em 1996, realizou-se a Segunda conferência Internacional, intitulada KDD-
96, evento que tem se repetido anualmente reunindo os principais pesquisadores da
área e agrupadas inúmeras publicações importantes deste seguimento que têm
contribuído com os rumos da pesquisa em KDD. KDD é uma área interdisciplinar
específica que surgiu em resposta à necessidade de novas abordagens e soluções
para viabilizar a análise de grandes bancos de dados. Particularmente, KDD tem
obtido sucesso na área de marketing, onde a análise de banco de dados de clientes
revela padrões de comportamento e preferências que facilitam a definição de
estratégias de vendas. A viabilidade de aplicação de KDD depende de aspectos
práticos e técnicos. O aspecto prático inclui considerações sobre o impacto que a
aplicação irá provocar, medido por critérios tais como rendimento, redução de
custos, melhora na qualidade dos produtos ou economia de tempo na instituição. Em
aplicações científicas, o impacto pode ser medido por novidade e qualidade do
conhecimento descoberto bem como pelo aumento da automação de processos de
análises manuais. O aspecto técnico se refere à disponibilidade de dados

3
suficientes, ou seja, a complexidade do problema pode exigir grande quantidade de
atributos e casos (ou “registros” de banco de dados). Por outro lado, muitos atributos
podem ser irrelevantes para o problema tratado. Em ambos, o conhecimento do
domínio da aplicação, tais como: campos mais importantes, qual o relacionamento
entre eles, qual a utilidade para o usuário, que padrões já são conhecidos, etc.,
poderá contribuir para redução tanto da busca na tarefa de Mineração de Dados
(MD) quanto nas demais etapas do processo de KDD. Apesar das informações
resumidas e significativas para tomada de decisão ser de volume menor, geralmente
elas não estão disponíveis e exigem a sua extração a partir de grandes quantidades
de dados que crescem com o tamanho e a idade das instituições, dificultando o
processo de extração de conhecimento. Além disso, muitas vezes o usuário não
sabe sequer formular uma questão desejada. A aplicação de KDD muitas vezes se
depara também com os seguintes desafios: bancos de dados enormes ou poucos
dados; muitas dimensões; mudança nos dados; dados com ruído ou perda de
dados; interação complexa entre atributos, etc. Neste contexto, o desafio que se
apresenta para as organizações pode ser simplificado como a resolução de duas
questões básicas:
1. Como organizar os dados?
2. Como extrair conhecimento dos dados organizados?
A primeira questão pode ser equacionada através da construção de Data
Warehouse. Esta tecnologia permite armazenar informações, anteriormente
dispersas, através da identificação, compreensão, integração e agregação dos
dados, de forma a posicioná-los nos locais mais apropriados visando a atender à

4
estratégia organizacional das empresas (Brackett,1996). Obviamente, a técnica de
Data Warehousing apresenta dificuldades em ser implementada sobre uma base de
dados como a gerada pela atividade policial tendo em vista a sua expansão
desordenada, sendo criada e modificada permanentemente pelos usuários finais e
não pelos analistas de informação. É tarefa hercúlea para o especialista de domínio
a sua organização, pois demandaria tempo e custos elevados, restando para si, na
maioria dos casos, a tarefa de delimitar genericamente a localização dos dados em
árvores de diretórios, além de orientar o usuário final a respeito da correta inclusão
dos dados em locais pré-definidos. Em resposta à segunda questão, para extrair
conhecimento de um sistema de Data Warehouse, são necessárias ferramentas de
exploração, hoje conhecidas como Mineração de Dados (MD), que podem incorporar
técnicas estatísticas e/ou de Inteligência Artificial (IA)8, capazes de fornecer
respostas a várias questões ou mesmo de descobrir novos conhecimentos em
grandes bancos de dados. MD é especialmente útil em casos onde não se conhece
a pergunta, mas, mesmo assim, existe a necessidade de respostas. Na área de
atuação de uma organização policial, a grande quantidade de informações
acumuladas nos bancos de dados informatizados pode esconder conhecimentos
valiosos e úteis para a tomada de decisões. O aumento acentuado no volume dos
dados, associado à crescente demanda por conhecimento novo para decisões
estratégicas, tem provocado o interesse crescente em descobrir conhecimento em
banco de dados.
3.1.1 Knowledge Discovery in Databases (KDD)
8
Inteligência Artificial: Tecnologia que torna os computadores com desempenho similar ao de seres humanos.
5
“KDD é o processo não trivial de identificação, a partir de dados, de padrões
que sejam válidos, novos, potencialmente úteis e compreensíveis” (Fayyad,
1996b).
Na definição de Fayyad, KDD é descrito como um processo geral de
descoberta de conhecimento composto por várias etapas, incluindo: preparação dos
dados, busca de padrões, avaliação do conhecimento e refinamentos. O termo não
trivial significa que envolve algum mecanismo de busca ou inferência, e não
qualquer processamento de dados direto de uma quantidade pré-definida. Nessa
definição, um conjunto de dados representa fatos enquanto que os padrões podem
ser interpretados como uma expressão em alguma linguagem capaz de descrever
um subconjunto de dados ou um modelo aplicável a este subconjunto. Os padrões
descobertos devem ser válidos diante de novos dados com algum grau de certeza.
Estes padrões podem ser considerados conhecimento dependendo de sua natureza.
Os padrões devem ser novos, compreensíveis e úteis, ou seja, deverão trazer algum
benefício novo que possa ser compreendido rapidamente pelo usuário para tomada
de decisão. Um conceito importante, chamado de interestingness (“grau de
interesse”) (Piatetsky-Shapiro & Matheus, 1994), é usualmente utilizado como uma
medida geral do valor de um padrão, podendo combinar validade, novidade,
simplicidade (compreensibilidade) e utilidade. Para descobrir conhecimento que seja
relevante, é importante estabelecer metas bem definidas. Segundo Fayyad et al.
(1996b), no processo de descoberta de conhecimento as metas são definidas em
função dos objetivos na utilização do sistema, podendo ser de dois tipos básicos:
verificação ou descoberta. Quando a meta é do tipo verificação, o sistema está
limitado a verificar hipóteses definidas pelo usuário, enquanto que na descoberta o
sistema encontra novos padrões de forma autônoma. A meta do tipo descoberta

6
pode ser subdividida em: previsão e descrição. A descrição procura encontrar
padrões, interpretáveis pelos usuários, que descrevam os dados. A previsão parte
de diversas variáveis para prever outras variáveis ou valores desconhecidos (Fayyad
et al., 1996a). Na previsão, o sistema irá encontrar padrões com o propósito de
estimar o comportamento futuro de algumas entidades, enquanto que na descrição o
sistema deverá encontrar padrões com o propósito de apresentá-los ao usuário em
uma forma compreensível pelo homem. As fronteiras entre previsão e descrição não
são bem definidas, mas em KDD “a descrição tende a ser mais importante do que a
previsão” (Fayyad et al., 1996b). As metas de previsão e descrição são alcançadas
através de alguma das seguintes tarefas de MD: classificação, regressão,
agrupamento, sumarização, modelagem de dependência e identificação de
mudanças e desvios, sendo a tarefa de classificação a mais empregada. Na
modelagem preditiva para classificação ou regressão podem ser utilizadas, dentre
inúmeras outras formas de representação do conhecimento, árvores de decisão e
regras. Retomando a explanação sobre o processo de KDD, apesar da mineração
de dados ser a etapa principal, o processo de descoberta de conhecimento em
banco de dados não se resume a minerar os dados. Exige-se a construção de mais
dois estágios: pré-processamento e pós-processamento.
Fayyad classifica o processo geral de KDD nas seguintes etapas:
• desenvolver um entendimento do domínio da aplicação, identificar o tipo de
conhecimento que interessa, e identificar a meta do processo de KDD a partir do
ponto de vista do usuário;

7
• realizar pré-processamento incluindo operações básicas, tais como: seleção de
atributos relevantes, remoção de ruído, tratamento da ausência de valores de
atributos e conversão de dados categóricos ou contínuos;
• reduzir os dados em função do objetivo da tarefa;
• escolher a tarefa de MD baseado no objetivo do processo de KDD;
• escolher o algoritmo9 de MD apropriado;
• realizar a mineração dos dados propriamente dita;
• interpretar os padrões descobertos, podendo retornar para um dos passos
anteriores;
• consolidar o conhecimento descoberto, incluindo a conferência e a solução de
possíveis conflitos com conhecimentos anteriores.
Portanto, o processo de KDD utiliza banco de dados para realizar: seleção de
atributos e transformações necessárias sobre os dados (pré-processamento);
aplicação de métodos (algoritmos) de MD para extrair padrões dos dados; e
avaliação do produto da MD para identificar os padrões julgados como
“conhecimento” (pós-processamento).
3.2 Mineração de dados – (MD)
Este é um tema de pesquisa cujas aplicações são virtualmente ilimitadas.
Pode-se aplicar Mineração de Dados a qualquer tipo de área (financeira, comercial,
medicina, ciências, etc.), desde que se tenham dados disponíveis. De fato as
pessoas estão se afogando em dados, mas sedentos de conhecimento. O problema

9
Algoritmo: é uma seqüência finita e não ambígua de instruções computáveis para solucionar um problema.
8
é como extrair conhecimento novo a partir de uma enorme quantidade de dados.
Segundo uma publicação da revista Times (2000), Mineração de Dados é um dos 10
“hottest jobs” para o futuro juntamente com programadores de genes e outros
serviços de tecnologia altamente avançada. “Mineração de dados” é um termo mais
utilizado por profissionais da área de estatística, analistas de dados e pela
comunidade que desenvolve sistemas de informações gerenciais, enquanto KDD
tem sido mais utilizado por pesquisadores em IA e aprendizagem de máquina
(Fayyad et al., 1996a). Fayyad diferencia os termos MD e KDD destacando que o
componente de MD se refere apenas ao meio pelo qual padrões são extraídos e
enumerados a partir dos dados, enquanto que KDD envolve a avaliação e
interpretação dos padrões para decidir o que é conhecimento e o que não é,
incluindo a escolha do esquema de codificação, pré-processamento, amostragem e
projeções realizadas antes da etapa de MD, bem como o pós–processamento
naturalmente realizado depois da etapa de MD. Segundo Fayyad (1997), tarefas
realizadas através de técnicas oriundas das áreas de estatística, reconhecimento de
padrões, RNA (Rede Neural Artificial), aprendizagem de máquina e banco de dados
podem ser enquadradas na fase de MD. Outros campos relacionados são
otimização (de busca), computação paralela e de alto desempenho, modelagem de
conhecimento, gerência de incertezas e visualização de dados. Técnicas de MD
utilizam dados históricos para aprendizagem objetivando realizar alguma tarefa
específica. Esta tarefa tem como meta responder alguma pergunta particular de
interesse do usuário. Portanto, é necessário informar qual problema se deseja
resolver. Exemplos de aplicações podem ser obtidos em Fayyad & Uthurusamy
(1995). Para encontrar respostas, ou extrair conhecimento relevante, existem
diversas técnicas de MD disponíveis na literatura (Chen et al., 1996; Cheung et al.,

9
1996). As principais podem ser agrupadas em:
• Indução e/ou Extração de Regras;
• Redes Neurais;
• Algoritmos Evolucionários;
• Técnicas estatísticas (classificadores e redes Bayesianas10, etc.); e
• Conjuntos Difusos.
Essas técnicas podem ser aplicadas a diversas tarefas de mineração de
dados, tais como: extração de regras de associação, classificação, previsão em
geral, determinação e análise de agrupamento, etc. Seja qual for a tarefa a ser
realizada, a aplicação cega de métodos de MD (chamada na literatura de estatística
de “dragagem de dados”) pode se tornar uma atividade perigosa e conduzir
facilmente para a descoberta de padrões sem sentido (Fayyad et al., 1996b). Para a
escolha da técnica mais adequada é estratégico saber alguma coisa a respeito do
domínio da aplicação de MD: quais são os atributos importantes, quais os
relacionamentos possíveis, o que é uma função útil para o usuário, que padrões já
são conhecidos e assim por diante.
O processo de MD também é centrado na interação entre as diversas classes
de usuários, e o seu sucesso depende, em parte, dessa interação. Os usuários do
processo podem ser divididos em três classes: especialista do Domínio que deve
possuir amplo conhecimento do domínio da aplicação e deve fornecer apoio para a
execução do processo; analista que é o usuário especialista no processo de
extração de conhecimento e responsável por sua execução devendo conhecer
profundamente as etapas que compõem o processo e; usuário final que representa a
classe de usuários que utiliza o conhecimento extraído no processo para auxiliá-lo

10
Redes Bayesianas: aplicam o Teorema de Bayes sobre determinística e probabilidade de variáveis aleatórias.
10
em um processo de tomada de decisão. E importante ressaltar que pode haver
situações em que o especialista do domínio também é o usuário final, ou que este
auxilie ou execute funções pertinentes ao analista. Entretanto, é pouco provável que
o analista encontre conhecimento útil a partir dos dados sem a opinião do
especialista sobre o que é considerado interessante em um domínio específico.
“Não há um método de Mineração de Dados ‘universal’ e a escolha de um
algoritmo particular para uma aplicação particular é de certa forma uma arte”.
(Fayyad et al., p. 86, 1996b).
Segundo Fayyad et al. (1996b), os algoritmos de MD diferem primariamente
nos critérios utilizados para avaliar o modelo e/ou no método de busca utilizado. Ele
adverte que não há critérios estabelecidos para se decidir quais métodos devem ser
usados em dada circunstância e que muitas abordagens são aproximações
heurísticas para evitar o alto custo de processamento que seria necessário para se
encontrar soluções ótimas. Fayyad identifica três componentes primários em
algoritmos de MD:
a) Representação do modelo: é a linguagem utilizada para descrever os padrões a
serem descobertos;
b) critério de avaliação do modelo: afirmação quantitativa (ou função de aptidão)
da qualidade que um padrão específico possui (um modelo e seus parâmetros) em
alcançar as metas do processo de KDD. Modelos preditivos muitas vezes são
julgados pela exatidão de previsão medida utilizando algum conjunto de dados de
teste. Modelos descritivos podem ser avaliados pela novidade, utilidade e facilidade
de compreensão do modelo obtido, além da exatidão;

11
c) método de busca: é constituído por dois componentes (busca de parâmetros e
busca do modelo). Após a escolha da representação e do critério de avaliação do
modelo, o problema de MD fica reduzido à tarefa de otimização (encontrar os
parâmetros/modelos que satisfaçam o critério de avaliação). Na busca, o algoritmo
deve procurar os parâmetros que aperfeiçoem o critério de avaliação do modelo. A
busca do modelo ocorre em um processo interativo externo ao método de busca dos
parâmetros.
3.3 Recuperação da informação – Ensaio na Internet – Metadados e Metabusca
Em seus primeiros estágios de uso, a tecnologia da informação era utilizada
em um ciclo de identificação, localização e acesso a documentos em papel,
armazenados em bibliotecas. Com o surgimento da Internet, os estágios de
localização e acesso se tornaram triviais: um número crescente de registros da
cultura humana está migrando para formatos digitais e uma quantidade grande dos
mesmos é criada já diretamente em formato digital.
Em contrapartida, a enorme quantidade de informação armazenada e
disponibilizada via Internet torna crucial o problema da identificação de informação
relevante. Diversas estratégias para fazer frente à explosão informacional trazida
pela Internet podem hoje ser divisadas, como os mecanismos de busca gerais
(Google, AltaVista, Excite, Lycos, Infoseek, Yahoo e outros), os localizadores de
informações especializados, como o GILS ou o PROSSIGA (http://www.prossiga.br/)
ou LIS (http://www.bireme.br/) e as propostas de indexação do documento com tags

12
embutidas no código das páginas HTML11, como o Dublin Core e a linguagem XML12
(Medeiros, 2000). O desenvolvimento de esquemas de metadados13 como o Dublin
Core (Weibel, 1995) e sua utilização pelo próprio autor do documento eletrônico para
descrevê-lo e indexá-lo é uma possível solução; juntamente com tags 14 HTML
especiais, as tags META. Metadados e metabusca15 constituem, na opinião do Autor
deste Projeto, a solução para a explosão informacional trazida pela Internet, com
potencial pleno para uso em intranets corporativas, tornando possível que páginas
HTML e arquivos sejam vasculhados por programas especiais, chamadas "aranhas"
ou agentes inteligentes, indexando-os com muito mais qualidade.
A maior novidade em termos de metabusca que parece alentadora é o Projeto
GOOGLE, com sua proposta de ordenamento e priorização ranking dos resultados
de uma busca tendo por base sites mais referenciados por link a partir de outros.
Nesta proposta, representações consistentes das informações jogam um papel
fundamental em atividades como busca de informações, avaliação e uso.
Intimamente ligado às atividades de recuperação de informações,
principalmente utilizando tecnologia da informação, está o conceito de Relevância
(Greisdorf, 2000). Este é um conceito central para a ciência da informação
(Saracevic, 1970). Relevância pode ser definida como "medindo a correspondência
entre um documento e uma consulta" (Le Coadic, 1996). Conforme colocado por
Robins (2000), o conceito de relevância na recuperação de informações evoluiu
desde uma perspectiva centrada no sistema, onde um documento, em um sistema
11
HTML: A sigla HTML deriva da expressão Hyper Text Markup Language. Trata-se de uma linguagem de
marcação utilizada para produzir páginas na Internet.
12
XML: XML (Extensible Markup Language) é uma recomendação da W3C para gerar linguagens de marcação
para necessidades especiais.
13
Metadados equivale à representação sob a forma de resumo do documento original.
14
Tags: são comandos inseridos num documento que definem como o documento deve ser formatado.
15
Metabusca é a obtenção de conhecimento através da pesquisa dos resumos contidos nos metadados.
13
de recuperação de informações é ou não relevante, para modelos mais sofisticados,
baseados em aspectos cognitivos de um usuário em sua interação com um sistema
de informações – os chamados modelos cognitivos ou modelos baseados no usuário
(Belkin, 1982) e (Saracevic, 1988).
Na perspectiva cognitivista, a recuperação de informações está associada
com imprevisibilidade. Esta situação implica a perspectiva de um usuário, um
processo de busca de informações hierarquizado, desde necessidades mais gerais
por informações – information behavior –, passando pela interação do usuário com
fontes e sistemas de recuperação de informações – information seeking behavior,
information searching behavior –, até o uso final da informação pelo usuário –
information use behavior – (Wilson, 2000, p. 49). Este processo se mostra assim um
processo contínuo de tomada de decisões. Wang (1998) propõe um modelo para
estas decisões, baseado em critérios como topicalidade, orientação, qualidade,
novidade, disponibilidade, autoridade, relação e em valores como epistêmico,
funcional e emocional. Aspectos do modelo proposto por Wang relacionados com o
problema da representação é seu estudo do impacto do que ele chama DIEs
(Document Information Elements) – componentes de informação do documento, os
campos de uma referência bibliográfica, por exemplo – nas decisões relacionadas à
relevância dos documentos recuperados de um sistema de recuperação de
informações.
A referência bibliográfica pode ser vista como um texto sobre outro texto – o
documento que ele representa. Diversas disciplinas se voltam para o problema da
interpretação de textos. A interpretação como atividade cognitiva de um leitor (no
caso de sistemas de informação, um usuário), é preocupação da hermenêutica

14
(Demo, 1995),(Reale, 1991). A teoria literária de base semiótica16 (Eco, 1995), (Violi,
1998), a Análise do Discurso (Orlandi, 1993) e a ciência da informação (Dervin,
1999) destacam o papel ativo do leitor, do seu contexto, da sua história, em dar
sentido ao texto.
O referencial teórico da semiótica, conforme estabelecida por Charles
Sanders Pierce (Pierce, 1977), elucida o papel de representações de documentos no
contexto de processos de busca de informações: principalmente conceitos como
abdução – processo inferencial baseado em representações – e o de interpretação
(Hobbs, 1993). Pierce associa a abdução ao insight criativo na ciência, quando uma
nova descoberta científica é inferida, baseado em poucos e incompletos dados.
Assim também considera Ingersen (1996, p.20) quando diz que "Em vários aspectos
a recuperação de informações tem paralelo com o processo científico de formular
uma hipótese, testá-la e obter um novo conhecimento". A formulação de Pierce para
o raciocínio abdutivo esclarece o papel de representações de informações – uma
referência bibliográfica, por exemplo – na economia da informação: servir como um
dispositivo de inferência – um artefato cognitivo, na concepção de Hutchins (1999) –
sobre a relevância do recurso informacional para as necessidades de informação do
usuário que a interpreta. No espaço da Internet, por exemplo, representações de
documentos ou de outros recursos informacionais devem apoiar decisões de seus
usuários potenciais relativas à busca, identificação, avaliação de relevância, custo-
benefício de acessar a informação e lê-la.
Localizar e/ou identificar informações é uma etapa fundamental na economia
da informação e do conhecimento. Algumas estratégias podem ser divisadas para
lidar com o problema da localização e identificação de informações no contexto da

16
Semiótica: (do grego semeiotiké, (arte) dos sinais, sintomas) é a ciência dos signos e da semiose, ou seja, do
processo de significação na natureza e na cultura.
15
Internet. Em primeiro lugar, os mecanismos de busca, como Google, Lycos,
AltaVista, Infoseek, HotBot etc. Estes mecanismos de busca mantêm uma base de
dados contendo URLs17 de páginas Internet juntamente com palavras-chave
extraídas destas páginas automaticamente. A base de dados é mantida por
programas especiais chamados aranhas (spiders) ou robôs, que, ao gerarem
automaticamente valores numéricos de URLs, acessam diferentes páginas Web 18,
vasculham seu conteúdo, extraindo informações do texto de cada página HTML
visitada, armazenando-as na base de dados. Regularmente, programas-aranha
vasculham a Internet ou partes selecionadas dela, mantendo bases de dados do
mecanismo de busca atualizadas.
Sneiderman (1997), discutindo a eficácia dos mecanismos de busca de uso
geral disponíveis na Internet, diz que "Embora mecanismos de busca como as
Infoseek, AltaVista, Lycos, WebCrawler e Open Text sejam largamente usados,
existe um consenso público e geral e entre profissionais acerca das grandes
dificuldades de buscar informações".
Um relatório do instituto de Pesquisas NEC, publicado pelo boletim Edupage
em português, em 3 de abril de 1998, relata que os melhores mecanismos de busca
cobrem não mais de 30% de todas as páginas Web. Esta afirmação reforça a
dimensão do problema localização/identificação colocado pela Internet.
Outra estratégia é o desenvolvimento de serviços de localizadores de
informações especializados como os serviços de localizadores de informações
governamentais (GILS) de diferentes países, os portais especializados como o
17
URL: Universal Resource Locator (URL). É o endereço de um recurso ou ficheiro disponível na Internet.
18
WEB: Abreviação de WWW, World Wide Web ( teia do tamanho do mundo ). Parte visível desta rede.
16
SOSIG (http://www.sosig.ac.uk/), a experiência das bibliotecas virtuais
especializadas do programa Prossiga, o serviço LIS – Localizadores em Ciência da
Saúde. A catalogação e indexação de recursos da Internet nestes serviços são feitas
por profissionais de informação; eles indexam recursos informacionais e não a
página isolada, como é feito automaticamente pelos mecanismos de buscas
(Kirriemuir, 1998). Apesar do fato de que a qualidade da informação é boa e os
localizadores de informações especializados são realmente eficazes, eles se
destinam às comunidades específicas.
Uma terceira estratégia consiste no uso descentralizado de esquemas de
metadados por diferentes comunidades para descrever e indexar recursos de
informação da Internet à medida que eles são criados e publicados. Metadados
embutidos no texto HTML de páginas podem tornar mais fácil e correto o exame e
indexação das páginas Web pelas "aranhas" e robôs, favorecendo a localização e
identificação de informações relevantes.
Todas estas experiências destacam o papel dos metadados, isto é, de
representações de recursos informacionais disponíveis na Web, na localização e
identificação de informação e/ou conhecimento que emerge com o surgimento da
Internet e da sociedade da informação. No trabalho informacional de criação de
representações, atores e papéis são bastante distintos dos de processos cognitivos
individuais e devem ser identificados de maneira precisa. Primeiro, um ator, o
profissional de informação, representa um documento mediante estratégias
cognitivas de indexação e resumo (Endres-Niggemeyer, 1998). Ele interpreta o
documento para alguém mais, o usuário, com o objetivo de desenvolver uma
representação do documento. Esta representação é preparada para ser utilizada por
outro ator, o usuário. Este é um processo ativo, à medida que o profissional de

17
informação não somente extrai a informação contida no documento original, mas,
freqüentemente, adiciona informações novas baseado nas necessidades de
informação e no quadro conceitual que o profissional de informação supõe que
usuários possuam ou que ele próprio possua. Ao construir um registro bibliográfico
para inclusão em uma base de dados, por exemplo, o profissional de informação
assinala campos como tipo de documento, classificação, etc., informação que não
está explícita no documento original.
3.4 Representação e economia do conhecimento – Semiótica e Metatexto
Processos semióticos, como estabelecidos por Eco (1995), diferentemente de
processos determinísticos de estímulo-resposta, que são binários (A implica B), são
triádicos, envolvendo um objeto A ausente, um signo B e uma entre várias
possibilidades de interpretação C que o signo traz ou representa, na mente de
alguém. Colocada desta maneira, a semiótica é um processo humano e social
fundamental, que implica a comunicação entre seres humanos e, desta forma, em
decisões e escolha de interpretações de mensagens.
A busca de informações, principalmente no contexto de uma busca na
Internet ou em uma base de dados, pode ser vista como um processo semiótico,
uma vez que envolve o uso e interpretação de representações, as referências
bibliográficas. Esta situação é a que cria motivação para a busca de informações e
fornece os parâmetros para qualquer avaliação de relevância de representações
como as referências bibliográficas. Quando interpretada pelo usuário, a

18
representação deve suportar e apoiar vários tipos de operações cognitivas de
inferência acerca do conteúdo do documento original, de modo a permitir que o
usuário, no limite, possa decidir despender energia para obter e ler o documento
completo.
O valor da representação consiste no fato de que ela pode economizar
energia para o usuário, tornando o processo de busca de informações mais
econômico de um ponto de vista do seu dispêndio de energia; ler um resumo
despende muito menos energia que a leitura do documento completo. Permitir
inferências é a razão de ser do processo de representação no contexto da busca de
informações.
Pierce conceitua signo como "um signo ou representâmen, é aquilo que, sob
certo aspecto ou modo, representa algo para alguém" (Pierce, 1977, p. 46);
representar seria “estar no lugar de, isto é, estar numa tal relação com um outro que,
para certos propósitos, é considerado por alguma mente como se fosse este outro”
(Pierce, 1977, p. 61).
Na representação de um documento por meio de uma referência bibliográfica,
por exemplo, o objeto seria o documento original, o signo seria a referência
bibliográfica e o interpretante seria a idéia do documento criada pela referência na
mente de um usuário. Este signo seria, mais especificamente, um ícone. Um ícone é
um tipo de signo que pode representar um objeto, porque seus atributos têm
relações análogas com os atributos do objeto que está sendo representado. Uma
representação é construída colecionando-se atributos ou predicados acerca do
objeto, diz Dahlberg (1992, p. 66), na teoria do conceito.
Predicados acerca de um documento poderiam ser do tipo: um documento
tem um título <TÍTULO>, tem um autor <AUTOR>, diz respeito a um assunto

19
<ASSUNTO> etc. Assim, uma referência bibliográfica é um ícone com relação ao
documento que ela representa.
Um ícone é definido como um signo que tem alguma semelhança com o
objeto representado. Como o documento original, uma referência é um (meta) texto
que aparece ao usuário com o mesmo autor, com o mesmo título que o documento
original. Geralmente, a referência indica também a fonte do documento original,
palavras-chave associadas ao assunto do documento em questão e um resumo
descrevendo seu conteúdo.
Todos estes componentes são interpretados pelo usuário e, assim,
constituem um dispositivo de inferência ou uma tecnologia cognitiva conforme
estabelecido por Pierre Lévy, que permite inferir o “aboutness” e a relevância do
documento.
Sob outro aspecto, indexação e resumo são processos fortemente baseados
em inferências por parte do profissional de informação acerca das necessidades do
usuário, suas atividades e sobre a maneira pela qual ele usa informação.
Pesquisas recentes têm como foco a modelagem de usuários, suas
necessidades expressas durante o processo de busca de informações etc.
Indexação e resumo consistem em um processo de construção, pelo profissional de
informação, de um metatexto fortemente relacionado com o texto original.
Em que consistem estas relações? Na construção deste metatexto, o
profissional de informação faz escolhas acerca de que aspectos do texto original
devem ser mantidos no metatexto e quais não devem ser mantidas, quais, mesmo
que não estejam no texto original, devem ser adicionadas ao metatexto.
Quais os limites deste processo? A representação mais completa do ponto de
vista informacional de um texto é o próprio texto. Diferentemente, no entanto, do

20
processo semiótico, a construção deste metatexto, a referência bibliográfica, envolve
um aspecto que é a raiz de sua utilidade para a economia da informação e do
conhecimento.
A representação deve situar-se entre dois extremos para economizar energia
e assim realizar seu papel: ser suficientemente rica sob o aspecto cognitivo e ao
mesmo tempo sintética para economizar a energia do usuário de uma maneira
significativa. Este compromisso deve ser claramente compreendido pelo profissional
de informação. Na economia da informação e do conhecimento, a representação
deve ser tão rica cognitivamente de modo a permitir a um usuário inferir o conteúdo
do documento, de maneira a permitir-lhe decidir acerca da validade de obter e
realizar a leitura do documento completo. Simultaneamente, este processo deve
implicar uma significativa economia de energia em comparação com a obtenção e
leitura do documento original.
3.4 Ferramentas de busca na Internet – Diretórios e motores de busca
Desde os primórdios da Internet, houve a preocupação de se criarem
ferramentas para localização de seus recursos informacionais. Entre as ferramentas
mais antigas, podemos citar o Archie19, que busca arquivos em repositórios de sites
FTP, e Veronica e Jughead, que encontram conteúdos armazenados nos Gophers20.
Com o advento da internet e a conseqüente explosão das publicações
disponibilizadas por meio dela, começaram a surgir as ferramentas específicas para
19
Archie: Ferramenta que permite a procura de arquivos e informações em servidores FTP.
20
Gophers: é um protocolo de redes de computadores que foi desenhado para indexar repositórios de
documentos na Internet.
21
pesquisa de suas páginas. Existem hoje centenas destes instrumentos que
fornecem meios para localizar o que se busca entre as cerca de um bilhão de
páginas HTML, que se estimam.
Existem dois tipos básicos de ferramentas de busca na internet: os motores
de busca e os diretórios. Entretanto, a partir dessas duas categorias básicas, outros
tipos de ferramentas têm surgido, fazendo o mundo dos serviços de busca complexo
e volátil. Devido às características específicas de cada ferramenta, o tipo, número e
a qualidade dos recursos recuperados através de seu uso, podem variar
enormemente. Para obter melhores resultados na busca de informações, o primeiro
passo é entender as peculiaridades dos diferentes tipos de ferramentas de busca na
internet.
3.4.1 Diretórios
Os diretórios foram a primeira solução proposta para organizar e localizar
os recursos da internet, tendo precedido os motores de busca por palavras-chave.
Foram introduzidos quando o conteúdo da internet ainda era pequeno o suficiente
para permitir que fosse coletado de forma não automática.
Organizam-se os sites que compõem sua base de dados em categorias, as
quais podem conter subcategorias, ou seja, os sites recebem uma organização
hierárquica de assunto e permitem aos usuários localizar informações, navegando,
progressivamente, para as subcategorias.

22
Como são ferramentas genéricas, destinadas a um público variado, procuram
incluir, em suas árvores hierárquicas de assunto, tópicos que são de interesse
amplo. É comum que incluam, por exemplo, itens relacionados com educação,
esporte, entretenimento, viagens, compras ou informática. Cabeçalhos de assunto
são atribuídos de forma consistente, de modo que os usuários podem contar com a
ajuda de um vocabulário controlado.
Os sites coletados passam pela seleção, na maioria das vezes, por seres
humanos, os editores, que tomam conhecimento de novos recursos por meio de
sugestões de usuários, de pesquisas na Internet (em listas de anúncios de novas
páginas e atualizações, por exemplo), ou ainda, pelo uso de robôs para coletar
novos URLs.
Embora normalmente os critérios para seleção utilizados não sejam
divulgados, apenas os melhores recursos são escolhidos para inclusão. Apesar
desta triagem, devido à enorme quantidade de sugestões, centenas de sites podem
ser acrescentados semanalmente. Os grandes diretórios podem conter dezenas de
milhares de categorias e subcategorias e mais de um milhão de sites.
O primeiro diretório da internet foi o The World Wide Web Virtual Library
(http://www.vlib.org/), lançado em novembro de 1992 e sediado no CERN, que
também foi o local de nascimento da internet. Atualmente, o exemplo mais
conhecido é o Yahoo!, que iniciou em 1994, a partir de um hobby de estudantes de
doutorado na Stanford University, e hoje é uma bem-sucedida empresa comercial.
Outros exemplos de diretórios são Snap (http://www.snap.com/), LookSmart
(http://www.looksmart.com/), Open Directory (http://dmoz.org/), Yahoo Brazil

23
(http://www.br.yahoo.com/) e Cadê (http://www.cade.com.br/), sendo este último
brasileiro.
3.4.2 Motores de busca
Ao contrário dos diretórios, os motores de busca não organizam
hierarquicamente as páginas que colecionam. Preocupa-se menos com a
seletividade que com a abrangência de suas bases de dados, procurando colecionar
o maior número possível de recursos através do uso de softwares chamados robôs.
Como suas bases de dados são extremamente grandes, podendo alcançar centenas
de milhões de itens, permitem aos usuários localizar os itens desejados mediante
buscas por palavras-chave, ou, às vezes, em linguagem natural.
Os motores de busca começaram a surgir quando o número de recursos na
internet adquiriu proporções tais que impediam a sua coleta por meios manuais e a
busca apenas através da navegação. A maioria deles derivou do trabalho de
estudantes de pós-graduação, professores, funcionários do departamento de
sistemas de empresas ou outras pessoas interessadas na internet. Muitos não
obtiveram continuidade, à medida que a tarefa a ser executada passou a exigir
maiores recursos humanos e técnicos. Os que sobreviveram foram adquiridos por
empresas ou financiados por propagandas, investidores e recursos de pesquisa.
ALIWEB (Archie-Like Indexing on the Web) e Harvest são exemplos das
primeiras tentativas de criar motores de busca por palavras-chave, e utilizavam
tecnologias diferentes das atuais. O primeiro dos motores baseados em robôs foi o
24
WebCrawler, lançado em abril de 1994. Todos os motores atuais utilizam o método
de robôs sendo formados por quatro componentes: um robô, que localiza e busca
documentos na internet; um indexador, que extrai a informação dos documentos e
constrói a base de dados; o motor de busca propriamente dito e a interface, que é
utilizada pelos usuários.
Os robôs, também chamados de aranhas (spiders), agentes, viajantes
(wanderers), rastejadores (crawlers) ou vermes (worms), são programas que o
computador hospedeiro da ferramenta de busca lança regularmente na Internet, na
tentativa de obter dados sobre o maior número possível de documentos para
integrá-los, posteriormente, à sua base de dados.
Existem várias estratégias que os robôs podem utilizar para se locomoverem
de um documento a outro, utilizando-se dos links existentes nas páginas da internet.
Geralmente, eles iniciam a busca a partir de sites conhecidos, especialmente
daqueles que possuem muitos links, recuperam a sua home page e,
sistematicamente, seguem os links encontrados nesta página inicial. Usam
algoritmos próprios para determinar quais links devem seguir. Por exemplo, alguns
recuperam os documentos da hierarquia superior de um grande número de
servidores (abordagem breadth-first), enquanto outros capturam todos os
documentos em links de um mesmo servidor (abordagem depth-first).
Os motores de busca podem usar vários robôs que trabalham em paralelo
para construir sua base de dados. Na coleta de páginas para suas bases de dados,
a maioria dos motores de busca permite também que os usuários sugiram URLs, em
vez de esperar que os documentos sejam encontrados através da varredura
realizada regularmente pelos robôs.

25
Os documentos encontrados pelos robôs são encaminhados aos indexadores
que extraem a informação das páginas HTML e as armazenam em uma base de
dados. Esta base de dados do motor de busca consiste de informações julgadas
importantes como os URLs ou endereços das páginas, cache 21 das páginas, títulos,
resumos, tamanho e as palavras contidas nos documentos.
A interface, normalmente uma página em formato HTML, é utilizada pelos
usuários para efetuar a pesquisa na base de dados. Fornece o meio para que o
usuário formule a sua consulta, que é recebida e transmitida para o software de
busca ou motor de busca propriamente dito. Este é um programa que localiza, entre
os milhões de itens na base de dados, aqueles que devem constituir a resposta. O
programa também é responsável pela ordenação dos resultados, de maneira que os
mais relevantes apareçam em primeiro lugar na lista de resultados. Os resultados
mostrados contêm uma lista de descrições de sites e seus links.
Todos os motores de busca são compostos dos componentes listados
anteriormente. Entretanto, diferem entre si em relação a fatores como o tamanho de
suas bases de dados, critérios para indexação e inclusão de páginas, além de
ordenação dos resultados. Suas interfaces, recursos de busca que oferecem, a
freqüência com que atualizam suas bases de dados e o modo como apresentam os
resultados também variam.
O tamanho das bases de dados dos motores de busca é medido, geralmente,
em número de URLs. Este tamanho é de alta relevância para que a ferramenta seja
21
Cache: cache é um dispositivo interno a um sistema que serve de intermediário entre um operador de um
processo e o dispositivo de armazenamento ao qual esse operador acede.
26
considerada boa, já que os recursos informacionais na Internet só podem ser
encontrados em uma pesquisa, se alguma ferramenta os tiver incluído.
Se um motor cobre mais da internet, ele terá maior chance de conter a
informação procurada. Na tabela abaixo estão listados os maiores motores do
mundo, com o número de páginas em suas bases de dados e a percentagem do
número total de páginas da internet que cada um indexa. Atualmente o buscador
Google continua em primeiro lugar na classificação geral.
Fonte: Search Engine Watch. Search engine sizes.

Disponível na Internet via WWW. URL:
http://searchenginewatch.com/reports/sizes.html.
Ilustração 2
3.4.3 Critérios para indexação

27
Os motores de busca criam índices, chamados, na linguagem técnica, de
arquivos invertidos, que são utilizados para dinamizar a busca de informações na
sua base de dados. No índice, são inseridos todos os termos que podem ser
utilizados em busca de informações e o URL das páginas que os contêm. A fim de
fornecer melhores recursos para recuperação dos resultados e sua ordenação,
podem ser ainda armazenados dados sobre a posição das palavras na página e
sobre os tags HTML associados com o texto. Se um termo não estiver incluído no
índice, ele não será encontrado, portanto os critérios utilizados para indexação
influenciam os resultados das buscas.
A maioria dos motores de busca indexa, ou seja, inclui, em seu índice, cada
palavra do texto visível das páginas. Entretanto, alguns extraem, em vez do texto
completo, apenas o URL, as palavras que ocorrem com freqüência, ou palavras e
frases mais importantes contidas no título ou nos cabeçalhos e nas primeiras linhas,
por exemplo. Alguns motores indexam também outros termos, que não fazem parte
do texto visível, mas que contêm informações importantes e úteis.
Exemplos deste tipo de texto são os textos incluídos nos metatags22 para
classificação, descrição e palavras-chave e texto ALT do tag Image, ou seja, texto
associado com imagens. Os metatags de classificação fornecem uma palavra-chave
que define o conteúdo da página. Os de descrição retornam à descrição da página
feita pelo seu autor no lugar do resumo que o robô criaria automaticamente. Os de
palavras-chave fornecem as palavras-chave designadas pelo autor para descrever
seu conteúdo ou assunto. Por exemplo, no metatag <META name="keyword"
content="Brasil, informação para negócios" >, as palavras Brasil e informação para

22
Metatags: Sinônimo de metadata. Informação simplificada de um documento, usada pelos mecanismos de

busca para encontrar e classificar informações.
28
negócios podem não fazer parte do texto visível da página, entretanto foram
indicadas pelo seu autor como indicadores do assunto sobre os quais a página
versa.
Alguns motores não incluem no seu índice algumas palavras do texto,
chamadas palavras proibidas (stop words). Palavras proibidas são selecionadas
entre as muito comuns, como, por exemplo, a preposição "de", ou o artigo "the" na
língua inglesa. Como ocorrem nos textos em alta freqüência, muitos motores as
excluem em seus índices para economizar espaço de armazenamento. Outros as
incluem nos índices, mas os ignoram ao fazer uma busca, para torná-la mais rápida.
Para o usuário, isto é problemático, uma vez que os motores, em geral, não
fornecem documentação sobre quais são as palavras proibidas utilizadas.
3.4.3.1 Critérios para indexação de páginas e documentos
O número de itens nas bases de dados dos motores é determinado pelos
critérios que utilizam para inclusão de páginas. Alguns motores procuram incluir
todas ou a maioria das páginas de cada site visitado. Outros indexam os sites
superficialmente, ou seja, incluem apenas a home page e algumas páginas
principais.
Além de documentos HTML, são cada vez mais comuns motores que coletam
e indexam outros formatos, como imagens, vídeos, gráficos, arquivos PDF ou ASCII.
29
Outros compilam ainda mensagens em grupos de discussão, sites de FTP, menus
de gophers e outros recursos.
Entretanto, existem páginas que não são parte de nenhum motor de busca.
Estas incluem sites que requerem senhas para entrada, páginas atrás de um
firewall23 e páginas que contenham o metatag Meta Robot "noindex". O metatag
Robot (<META name="robots" content="noindex") pode ser acrescentado aos
marcadores de cabeçalho pelo criador da página para indicar aos robôs que eles
não devem capturá-la. Páginas isoladas, que não sejam referenciadas através de
links em outras páginas na Internet, também podem escapar à varredura dos robôs.
3.4.4 Freqüência de atualização dos dados
Devido ao dinamismo da Internet, as bases de dados dos motores de busca
precisam ser atualizadas, não só para adicionar novas páginas, mas também para
deletá-las ou incluir as modificações das já existentes no índice. Caso os robôs não
revisitem periodicamente toda a Internet, os URLs que eles trazem como resultados
de uma busca podem não mais existir, ou podem existir, mas não mais conter as
mesmas informações, e, portanto, não mais serem relevantes para a busca.
Os motores de busca se propõem a atualizar completamente seus índices
pelo menos uma vez por mês. As partes mais importantes desses, como, por
exemplo, páginas mais populares entre os usuários (Excite, Lycos), ou páginas que
mudam com mais freqüência (Inktomi, Infoseek, Altavista, Go), podem ser
23
Firewall: nome dado ao dispositivo de rede que tem por função regular o tráfego de rede entre redes distintas.
impedir a transmissão de dados nocivos ou não autorizado de uma rede a outra.
30
atualizadas assiduamente, em torno de uma vez por semana, enquanto o restante
do índice é atualizado a cada duas a quatro semanas. Novos URLs e links mortos
descobertos pelos robôs são atualizados diariamente. Cada motor tem sua própria
estratégia e tecnologia para se manter atualizado, embora possa acontecer que
algum deles passe alguns meses sem acrescentar novos URLs ou modificar seus
índices.
Os motores diferem também quanto ao tempo necessário para que uma
página coletada pelos robôs ou submetida pelos usuários seja adicionada ao índice.
Até que isso aconteça, a informação não será encontrada através de pesquisa no
motor. Com o crescente número de sites disponíveis na Internet e a concorrência
para chamar a atenção das ferramentas de busca, podem se passar meses antes
que um site novo seja adicionado à base de dados.
3.4.5 Interface e recursos para busca
Os motores diferem também em relação às interfaces e recursos de busca
que oferecem. Geralmente fornecem dois modos de busca, a busca simples para
usuários leigos e a busca avançada para usuários mais experientes ou profissionais.
Na busca simples, existem janelas e menus que permitem que os usuários entrem
nos termos de busca sem a necessidade de conhecimento de lógica booleana¹. A
busca avançada fornece recursos mais poderosos, como expressões booleanas
complexas.
31
Muitas vezes, na busca simples, os conectivos booleanos são
automaticamente colocados entre os termos de busca, e nem sempre os usuários
sabem qual operador está sendo utilizado. Em alguns motores, por exemplo, um
espaço entre os termos da consulta é interpretado como um conectivo booleano OR
(Altavista e Excite, por exemplo), enquanto para outros tem o significado de AND
(Google e Northernlight, por exemplo).
Podem oferecer recursos como truncamento, busca por frase, busca por
proximidade de palavras, busca por campos e sensibilidade à caixa de caracteres
(isto é, caixa-alta e caixa-baixa). É comum também haver opções para permitir a
limitação por data, domínio, idioma ou tipo de arquivos (com base na extensão dos
nomes dos arquivos).
Alguns motores fornecem opções mais sofisticadas, como a busca automática
pela raiz das palavras, ou seja, se o usuário entrar com a palavra "psicologia", ele
encontrará também documentos contendo a palavra "psicólogo". Em alguns casos, a
pesquisa se estende também a outros termos sinônimos ou a termos com conteúdo
semântico equivalente ao termo da consulta, como é o caso do Excite. Esta busca
estendida, quando existente, é geralmente automática, não sendo dada ao usuário a
possibilidade de desabilitá-la. São mais raros motores que permitem buscas em
linguagem natural, na qual a consulta pode ser entrada na forma de uma sentença,
em vez de termos isolados.
Não existe ainda uma completa padronização nas interfaces e recursos de
busca que cada mecanismo oferece, os quais variam de motor para motor. Para se
usar corretamente cada motor, é necessária a leitura das páginas de ajuda ou a
consulta a tabelas comparativas em revistas especializadas ou na própria Internet

32
(ver, por exemplo, o site da biblioteca da University of California at Berkeley –
http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/ToolsTables.html e o site da
University at Albany Library - http://www.albany.edu/library/internet/choose.html).
3.4.6 Critérios de organização dos resultados
Devido à quantidade de páginas na Internet, na maioria das vezes obtém-se
um grande número de resultados para qualquer busca. Portanto, a seqüência em
que os resultados são mostrados torna-se importante. Se duas ferramentas trazem o
mesmo número de resultados, porém uma delas traz itens mais relevantes entre os
primeiros resultados, ela será considerada melhor. Com a finalidade de permitir que
os melhores sites apareçam em primeiro lugar, a maioria dos motores de busca
utiliza algoritmos de ordenação de resultados.
Entre os critérios mais utilizados por estes algoritmos estão a localização e
freqüência de ocorrência das palavras em uma página. Por exemplo, se o termo de
busca aparece no título, em cabeçalhos de destaque ou nos primeiros parágrafos
em uma página, esta seria considerada mais relevante que outras páginas em que
as palavras de pesquisa não aparecem nestas posições. E, se uma palavra aparece
com mais freqüência em uma página que em outra, a primeira seria considerada
mais relevante.
Outros critérios comuns para a determinação de relevância incluem o número
de termos da consulta que estão presentes na página e a proximidade em que os
termos se encontram. Os motores podem também levar em consideração o tamanho

33
do documento. Se dois documentos possuem o mesmo número de ocorrência dos
termos de busca, os documentos mais curtos seriam considerados mais importantes
que documentos longos. Este critério é chamado de densidade, pois mede a
densidade com que um dado termo é usado em cada documento. Às vezes aplica-
se uma curva declinante, em que a primeira ocorrência de um termo conta mais que
a segunda, que conta mais que a terceira, e assim por diante.
Os motores podem levar também em consideração o número total de vezes
que uma palavra ocorre na base de dados, pois existe uma relação inversa entre o
conteúdo informacional de um termo e o número de vezes que este ocorre em um
texto. Assim, as palavras recebem pesos inversos à freqüência de sua ocorrência na
totalidade dos documentos indexados pelo motor. Ou seja, palavras de ocorrência
muito comum podem receber um peso menor que palavras relativamente raras na
base de dados.
O mecanismo exato para determinação da importância das páginas varia de
motor para motor e geralmente não é revelado, porque os algoritmos de ordenação
por relevância são um dos maiores fatores diferenciais de competição entre os
motores.
3.4.6.1 Forma da organização dos resultados

34
Os motores podem fornecer várias opções de formato de exibição à escolha
dos usuários. A maioria apresenta o número total de documentos encontrados, os
quais são exibidos em páginas sucessivas contendo em torno de 10 resultados por
página em um formato default, o qual mostra o título e um pequeno resumo.
Normalmente o número de resultados por página pode ser alterado pelo usuário.
Outras vezes, pode-se também determinar quantos documentos, do total
encontrado, deseja-se receber. Por exemplo, podem ter sido encontrados 200
documentos, mas o usuário pode solicitar a apresentação apenas dos 10 ou 20
primeiros. O formato de exibição pode incluir o título, resumo, tamanho do arquivo
em bytes, data do arquivo, URL e idioma. Alguns motores agrupam os resultados
por URL e outros oferecem opção de apresentação de resultados de forma resumida
ou detalhada. Apenas o Google até o momento oferece o recurso de destaque
(highlighting) dos termos da consulta nos resultados apresentados.
3.5 Diferença entre Motores de Busca e Diretórios - Hibridização
Existem diferenças essenciais entre motores de busca e diretórios, o que faz
com que existam vantagens e desvantagens associadas ao uso de cada um dos
tipos de ferramentas. Os diretórios têm bases de dados menores, mas que contêm
informações mais relevantes. Por exemplo, ao se procurar, utilizando-se a árvore
hierárquica de assuntos, o tópico "motores de busca" (search engines) no diretório
Yahoo!, serão encontrados apenas itens relevantes. O mesmo não acontecerá, caso
efetuemos uma pesquisa com a palavra-chave “search engines” em um motor de

35
busca como o Altavista. Neste caso, obter-se-ia mais de um milhão e meio de
resultados, e não há garantia de que os itens recuperados sejam relevantes.
Diretórios são também mais apropriados para buscas por tópicos que sejam
de interesse para um grande número de pessoas, pois é alta a probabilidade de que
sejam parte da árvore hierárquica; ou tópicos muito amplos os quais retornariam um
número muito elevado de respostas em um motor de busca. Já os motores de busca
permitem a localização de qualquer tipo de informação, por mais obscura ou
específica, desde que exista na Internet e esteja indexada. Mas como a sua base de
dados é muito grande, constituída de milhões de páginas, a chance de se recuperar
um grande número de resultados não relacionados com os tópicos pesquisados é
também maior. Ou seja, obtém-se menor precisão nos resultados da busca. Por
outro lado, paradoxalmente, apesar de terem maiores bases de dados, as aranhas
dos motores de busca podem não indexar alguns tipos páginas que poderiam ser
incluídas nos diretórios.
Os motores de busca procuram compensar o excesso de itens recuperados
com seus mecanismos internos de ordenação por relevância, mostrando em
primeiro lugar os que, de acordo com seus critérios, deveriam ser os mais
importantes. Uma vez obtida a lista dos resultados, o usuário pode ler as descrições
para decidir quais os sites serão mais interessantes. No caso dos diretórios,
especialmente dos diretórios avaliados, esta descrição pode ser de melhor
qualidade. As descrições dos motores de busca, por serem elaboradas
automaticamente, podem não conter informações adequadas para facilitar a decisão
do usuário. Os robôs não podem, por exemplo, identificar o tema central ou gênero
literário de um documento e podem não detectar elementos importantes das páginas
como gráficos ou imagens, assim como não podem extrair de um documento dados
36
como o seu autor e sua afiliação institucional ou mesmo a data de publicação.
Acessar o site pode ser a única maneira de verificar se os recursos são relevantes
ou não.
Deve-se ter em mente, também, que, ao se pesquisar em um diretório, a
consulta é feita apenas no título, categoria e uma breve descrição dos documentos.
Já os motores de busca, em sua maioria, proporcionam uma pesquisa no texto
integral dos documentos. Ou seja, o termo de busca poderá ser encontrado onde
quer que ele apareça no documento.
Outra diferença importante entre os motores de busca e diretórios é a rapidez
com que a informação é incluída. Como nos diretórios, a inclusão de uma
informação exige o trabalho humano de avaliação e seleção de recursos, uma
página submetida a eles pode demorar pelo menos um mês para ser incluída. No
caso dos motores de busca, que usam indexação automática, este tempo costuma
ser mais rápido, e suas bases de dados contêm informações mais recentes.
Deve-se observar que, hoje em dia, a distinção entre motores de busca e
diretórios já não é tão nítida e que a maioria deles pode ser considerada ferramenta
híbrida. Os diretórios permitem buscas por palavras-chave em suas categorias, e os
motores de busca, por sua vez, têm incluído diretórios em suas páginas principais.
3.6 “Desktop Search Tools” – Ferramentas de busca dentro da máquina

37
“Desktop search” é a denominação genericamente atribuída às ferramentas
de busca que pesquisam o conteúdo dos arquivos localizados em computadores de
forma local, assim como os motores de busca pesquisam a internet.
A ênfase é em mineração de dados (MD) e é indexada toda informação
disponível dentro de um sistema operacional, assim como histórico de navegação na
internet, arquivos de e-mail, arquivos de texto, documentos, imagens, áudio,
apresentações, etc.
Uma das vantagens do uso de aplicativos baseados no sistema Desktop
Search é que os resultados das pesquisas são apresentados em frações de
segundos. Para os usuários finais isto significa rápido acesso ao conteúdo dos
documentos arquivados dentro de um computador pessoal e para os usuários
comerciais ou corporativos, isto significa aumento de produtividade, simplificação e
acesso rápido a uma vasta gama de dados normalmente desestruturados que
seriam impossíveis de serem localizados de outra forma.
Enquanto as empresas desenvolvedoras de Tecnologia da Informação (TI)
estão continuamente buscando novas ferramentas para facilitar as rotinas dos
especialistas de domínio e analistas de informações, os usuários finais estão
lentamente percebendo a utilidade destas ferramentas na mitigação dos efeitos da
desestruturação dos dados para a obtenção de informações e tomada de decisão.
O conceito de “Desktop search” implica em dois aspectos fundamentais: o
aumento da produtividade e a segurança da informação. Estatísticas comprovam
que pelo menos 80% (oitenta por cento) dos dados informatizados das empresas em
geral encontram-se inacessíveis por se tratarem de dados desestruturados.

38
Estruturá-los através de técnicas de Data Warehousing para posteriormente
catalogá-los em grandes bancos de dados através de sistemas como Oracle24 ou
SQL Server 25nem sempre se mostra viável por diversos motivos:
• o alto custo financeiro empregado na aquisição de softwares específicos,
recursos materiais e logísticos e contratação de mão de obra qualificada;
• a grande quantidade de tempo a ser despendido na tarefa que é dinâmica:
mais e mais dados desestruturados são gerados diariamente;
• carência de recursos humanos para esta finalidade exclusiva e;
• a falta de colaboração do usuário final que cria e armazena constantemente
dados de forma aleatória em uma estação de trabalho e não em um servidor
de arquivos. Em geral isto se dá em desobediência a critérios técnicos e de
organização e deriva na multiplicidade de localizações dentro da rede
corporativa onde os dados são armazenados.
A segurança também é motivo de preocupação, pois é de suma importância
manter a informação totalmente sob controle quando se trata de material sensível, o
que é muito comum na atividade policial.
É necessário, portanto, exercer o controle sobre o usuário final que sem a
noção adequada do mecanismo pode abrir brechas de segurança na rede
permitindo que usuários internos possam compartilhar seus índices com usuários
situados do outro lado do firewall corporativo ou que usuários externos à corporação
tenham acesso aos índices ou gerem índices próprios.
24
Oracle: Oracle é um sistema de banco de dados que surgiu no final dos anos 70, criado por Larry Ellison
quando encontrou uma descrição de um protótipo funcional de um banco de dados relacional.
25
SQL: Structured Query Language, ou Linguagem de Questões Estruturadas. É uma linguagem de pesquisa
declarativa para banco de dados relacional (bases de dados relacionais).
39
Destarte, é de vital importância a correta configuração do firewall corporativo
e a centralização do sistema de “desktop search” em um servidor de rede
monitorado pelo especialista do domínio, profissional experiente em segurança de
redes corporativas. Aos usuários finais deve caber apenas a tarefa de consulta à
base de dados em estações de trabalho devidamente autorizados pelo firewall do
servidor de forma controlada e monitorada.
3.6.1 Tecnologia empregada
A única maneira de se conseguir desempenho razoável quando se busca
informação em dezenas ou centenas de gigabytes é construindo e mantendo um
índice da base de dados. Enquanto indexa os dados, as ferramentas “desktop
search” coletam três tipos de informações acerca dos arquivos encontrados:
• arquivos e seu caminho na árvore de diretórios;
• meta data, como títulos, autores, comentários em arquivos dos tipos .mp3,
.pdf e .jpeg (audio, texto e vídeo)
• Conteúdo dos documentos nos demais formatos suportados.
Para pesquisar dentro dos documentos a ferramenta tem que ser capaz de
criar uma versão em cache de diversos tipos de documentos. Isto é conseguido
através do uso de filtros que interpretam os formatos dos arquivos selecionados. Por
exemplo: um filtro específico para o Microsoft Office deve ser utilizado para criar um
40
cache do conteúdo de documentos produzidos pelo Office (Word, Excel, Powerpoint,
Acess, etc.).
Algumas destas ferramentas estão em fase de testes de desenvolvimento
para incluir também a habilidade de pesquisar o conteúdo de arquivos de imagens e
de som pelo seu contexto.
Este setor tem atraído atenção considerável dos profissionais da área de TI,
principalmente pela divulgação na mídia da batalha travada entre as gigantes
Google e Microsoft pela supremacia dos mecanismos de busca.
A seguir é disponibilizada a relação das ferramentas existentes no mercado
atualmente nesta área:
• Ask.com
• AutoFocus (Aduna) — Exploração do Desktop usando linguagem Java
script e mapeamento de clusters.
• Autonomy — IDOL Enterprise Desktop Search.
• Beagle — Aplicativo GPL desenvolvido inicialmente para Linux pela Novell
(GNOME, Mono).
• Beetext: Beetext Find Desktop: Mecanismo de busca em rede corporativa e
internet.
• BlackBall's SearchIn: Mecanismo de busca multi-plataforma. Promete busca
acurada e flexível com a obtenção de resultados rápidos. Ferramenta
otimizada para ambientes corporativos.
• Blinkx
• Copernic Desktop Search

41
• Docco: Baseado no sistema de indexação do Apache para linux e no
mecanismo de busca Lucene. Requer um ambiente java script para funcionar.
• dtSearch Desktop
• Exalead One Desktop
• Google Desktop Search: Integrado com o mecanismo de busca Google.
• Grokker Desktop: Clusterização visual de arquivos baseado no sistema de
indexação da Microsoft nativo do windows.
• HotBot : Distribuído pela Lycos. Possui uma barra de ferramentas que se
acopla ao Internet Explorer do Windows.
• ISYS Search Software
• KAT Desktop Search Environment: Framework de código aberto para Linux
que permite indexação de arquivos pelo KDE.
• Qube Desktop Client : Habilita pesquisas através do navegador em modo off-
line.
• Windows Desktop Search: a caixa de ferramentas do MSN Search inclui o
mecanismo Windows Desktop Search que incorpora várias das tecnologias
prometidas para o Windows Vista, a próxima versão do sistema operacional
da Microsoft. A busca é integrada à barra de tarefas e ao navegador Internet
Explorer.
• Snowbird Search
• Spotlight: Mecanismo de busca para Apple Mac OS X "Tiger".
• Svizzer Desktop & Enterprise Search
• The File Seeker: Mecanismo de busca de código aberto para Windows.
• X1 Desktop Search: Renomeado como X1 Enterprise Client. Mecanismo de
busca de código aberto com API de livre distribuição. Permite não só

42
pesquisar assim como prever e atuar no processo da busca de resultados.
Especialmente útil para se lidar com e-mails e arquivos do Office.
• Watson 2.0 By Intellext
• Yahoo! Desktop Search: Mecanismo de busca do Yahoo! baseado na
plataforma do X1 Desktop Search.
Dentre todas as “Desktop Search Tools” existentes no mercado, o Google
Desktop Search (GDS) demonstrou nos testes empregados, da mesma forma que o
mecanismo de busca na internet da mesma empresa, sua superioridade sobre os
demais na soma dos critérios de oferecimento de recursos diferenciados como a
integração em rede, custo (freeware26), eficiência e liberação de sua API para
desenvolvedores, permitindo sua integração com outros softwares além de rápida e
constante evolução de novos recursos acrescidos por colaboradores.
4 GOOGLE
I realized I wanted to invent things, but I also wanted to change the world. I
wanted to get them out there, get them into people’s hands so they can use them,
because that’s what really matters. (Larry Page, um dos dois fundadores do
Google)27
26
Freeware: é um programa de computador (software) gratuito ao público, ou seja, no qual não é
preciso pagar para utilizá-lo.
27
“Eu percebi que eu queria inventar coisas, mas eu também queria mudar o mundo. Eu queria trazê-
las para fora, trazê-las para as mãos das pessoas para que elas pudessem usá-las, porque isto é o
que realmente importa.” Tradução livre do autor.
43
Ilustração 3
Conhecer a história do Google28 deveria ser uma obrigação de qualquer
profissional da área de informações. O Google não é mais a central, apenas, no
desenvolvimento da internet pós-bolha, mas referência mundial quando se trata de
informação e conhecimento.
John Battelle em seu livro, “The Search” ou, em português, “A Busca”
(Battelle, John, 2005), descreve que o Google começou em Stanford – onde
começaram também o Excite e o Yahoo! de Jerry Yang e David Filo – por meio do
encontro, algo miraculoso, entre Larry Page e Sergey Brin.
O Google nasceu de um projeto assinado pelos acadêmicos Page e Brin,
depois de desenvolverem o revolucionário conceito de “Page Rank”29.
Como bons acadêmicos que eram, os pais-fundadores do Google perceberam
que as teses mais valorizadas, dentro da academia, eram aquelas que mereciam
mais citações das demais. O salto foi: por que não aplicar esse mesmo princípio, de
valoração, ao mar de documentos da internet? Ou seja: as páginas que recebessem
o maior número de links do resto da Web seriam, automaticamente, as mais
representativas no universo de buscas do Google.
28
Google: pronuncia-se gúgôl em português e não gugól como erroneamente afirmado por alguns.
29
O Projeto original do Google pode ser acessado a partir de: http://www-
db.stanford.edu/~backrub/google.html .
44
O passo seguinte foi varrer toda a internet. Quanto mais páginas varridas, ou
“indexadas”, mais o argumento de “valoração” funcionaria. Afinal: o Page Rank se
baseava na classificação que a própria internet conferia às suas páginas. Quanto
mais amplo o espectro do mecanismo de busca de Page e Brin, maior a legitimidade
de seus resultados. O gigantismo da empreitada levou, então, ao nome Google que
é um trocadilho com a palavra “googol”, que foi inventada por Milton Sirotta, sobrinho
do matemático americano Edward Kasner, para designar o número representado por
1 seguido de 100 zeros. O uso do termo Google reflete a missão da empresa de
organizar o enorme montante de informações disponíveis na web e no mundo.
John Battelle narra em sua obra que o projeto, inicialmente hospedado nos
servidores de Stanford, derrubou a rede de uma das maiores universidades do
mundo, monopolizou consideravelmente sua “largura de banda”30 e se tornou tão
voraz, à medida que crescia, quanto ambicioso.
Até a virada do século e a consagração do Google, as buscas na internet
haviam se pautado pelo número de palavras-chave contidas numa página. Trocando
em miúdos: “se alguém digitasse ‘Brasil’ no AltaVista – o Google que não deu certo
–toparia com os endereços em que ‘Brasil’ estivesse presente um maior número de
vezes; mas é fácil perceber que esses resultados nem sempre seriam
representativos e poderiam ser, mais do que isso, manipulados”. (Battelle, J., 2005)
A luta de Larry Page e Sergey Brin sempre foi por uma boa busca. Seu
idealismo, por uma busca sempre “orgânica”, quase levou o Google à falência. Seus
fundadores, à medida que o serviço se consagrava, não queriam sacrificar sua
intenção inicial – a do Page Rank – e, por conta disso, embora tenham lançado a
30
(Hoje, para que se tenha uma idéia – indica Battelle, como base de comparação –, o Google
consome os recursos de mais de 175.000 servidores, o que é mais do que tudo o que havia sobre a
Terra, em matéria de computadores, nos anos 70...).
45
idéia em 1997, aberto a empresa em 1998, apenas conseguiram gerar negócios
consistentes em 2001. E, desta vez, não foi por conta de uma idéia totalmente
original.
Page e Brin resistiram bravamente à tentação de encher o Google de banners
e, mais do que isso, à tentação de vender seus resultados. Ironicamente, seu
modelo de negócio surgiu através de um concorrente que, justamente, vendia as
primeiras posições de seus resultados: o site Goto.com. Fundado por Bill Gross, do
IdeaLab – uma incubadora de projetos pré-Bolha –, o Goto.com chegou à
famigerada venda de palavras-chave, que o Google adotou na forma do conhecido
programa “AdWords”31.
Gross, um visionário da internet que fez fortuna pelo menos três vezes na
vida – segundo descreve John Battelle –, perdeu terreno com o estouro da Bolha,
em 2000, mas sua lógica de associar palavras-chave de uma busca a determinados
anunciantes prosperou, posteriormente, com o Google. E a grande contribuição do
Google, além de aperfeiçoar esse “pré-AdWords”, seria estender sua base para
exibição de anúncios pela internet afora – gerando receita para sites pequenos,
médios e até grandes (vulgo programa “AdSense”32).
Desta forma, o Google foi a empresa que mais (e mais rápido) cresceu na
História, de 2001 a 2005. O Google também tirou a internet inteira do coma pós-
Bolha, impulsionou o que já se chama de “segunda onda de conteúdo” e realizou
uma pra lá de bem-sucedida IPO33. Como se não bastasse: o Google é o único
31
AdWords: sistema de publicidade da Google, baseada no pagamento por cliques nos links de
anúncios disponibilizados nas buscas.
32
AdSense: sistema de pulicidade da Google que implica na disponibilização de links patrocinados
pela Google colocados dentro de páginas da web.
33
As ações da Google Inc., lançadas na bolsa em agosto de 2004, já haviam quase quintuplicado de
valor em novembro de 2005.
46
concorrente a seriamente ameaçar a outrora incontrastável hegemonia da Microsoft,
do ex-todo poderoso Bill Gates; e o Google, com ferramentas como Gmail e o
polêmico Orkut está liderando o que, tecnicamente, se chama de “Web 2.0” (um
combinado de programação e meta conteúdo que promete revolucionar a internet).
O que importa é que, em maior ou menor grau, todas as pessoas com acesso à
informação são ou serão irremediavelmente influenciadas pelo Google.
“Look, if this Google thing pans out, then great. If not, you can return to graduate school and
finish your thesis.” Do orientador de Sergey Brin, em Stanford.34
4.1 Atualidades sobre o Google – Softwares desenvolvidos
A cada dia que passa mais e mais pessoas se convencem que, depois da
roda e da internet, a maior invenção da humanidade teria sido o Google. A grande
vantagem da internet foi tornar a informação uma commodity35. Mas faltava aquilo
que nas outras commodities levou centenas e até milhares de anos para que
ficassem tão conhecidos, utilizados e produzidos por tantos atores que justificasse o
nome.
O Google tem a capacidade de fazer isso instantaneamente. As pessoas
costumam dizer que o Google tem esse potencial porque assim como a Microsoft -
que tornou o software uma commodity - tornou a informação espalhada ao redor do
mundo, das milhões de homepages, numa commodity. E foi além: através de seus
34
“Olha, se essa coisa de Google der certo, então ótimo. Se não, você pode tratar de retornar para a
Universidade e terminar sua tese”. Tradução livre do autor.
35
Commodity: insumo que outra pessoa com seu talento pode transformar.
47
projetos está mudando a forma como a humanidade interage com essas
informações.
Podemos citar, entre as dezenas de aplicações disponíveis, a criação do
Orkut, polêmica comunidade virtual fundada nos EUA e que curiosamente despertou
o interesse de grande número de brasileiros os quais, segundo recentes pesquisas,
já correspondem a 80% (oitenta por cento) dos usuários ativos. Essa rede virtual
atualmente é pivô de conflito existente entre o Ministério Público Federal brasileiro e
a empresa Google Brasil, versando sobre crimes cometidos por alguns usuários
deste ciberespaço. Este é um excelente exemplo da revolução social dos costumes
pela qual transita o mundo moderno onde é difícil separar o mundo virtual do mundo
real, já que ambos fazem parte da mesma realidade sócio-cultural, interagindo um
sobre o outro de forma recíproca.
O Google Earth, sofisticado sistema de visualização geográfica que se utiliza
de recursos de satélites vem provocando polêmica e protestos de países como a
China, que se ressentem em estar sendo submetidos a uma forma pública de
espionagem virtual em suas instalações militares. Planejamentos de grandes
operações policiais, como a Operação “Facção Toupeira” que frustrou assalto às
agências da CEF e do Banrisul em Porto Alegre na madrugada de 01 de setembro
de 2006, prendendo diversos criminosos ligados ao “PCC”, se serviram do uso deste
aplicativo para a distribuição das equipes e análise geográfica da área. Por outro
lado, tal aplicativo possui potencial para planejamento de ações terroristas, como
alegado por alguns.
Existem dezenas de aplicações derivadas do Google, porém o presente
trabalho não irá abordá-las por fugir ao escopo inicial do tema. Apenas o aplicativo
48
“Google Desktop Search” será objeto de análise mais minuciosa por representar o
coração do “Projeto Prometheus” e sua mola propulsora. De todo o exposto neste
tópico importa somente afirmar que novas tecnologias são e serão sempre bem-
vindas, porém o uso que delas é feito, para o bem ou para o mal é que vai definir
seu conceito de utilidade efetiva.
4.2 Google Desktop Search - GDS
O Google Desktop Search (GDS) possibilita acesso fácil e rápido às
informações contidas em qualquer computador e na internet. Pode ser baixado para
instalação a partir de http://desktop.google.com/ em sua versão já traduzida para o
português. É compatível com os sistemas operacionais Windows 2000 - SP4
(atualizado), Windows XP e Windows 2003 Server. É um aplicativo de pesquisa da
área de trabalho de um computador, que permite procurar texto específico dentro
dos e-mails, arquivos de áudio, de vídeo, de texto, de fotos, de apresentações,
zipados, entre outros, espalhados de forma desestruturada pelas pastas e diretórios
criados dentro do disco rígido de uma máquina.
Ao possibilitar a pesquisa dentro de um computador ou uma pasta específica,
o GDS faculta ao usuário que as informações estejam sempre disponíveis, tornando
desnecessária a organização manual dos arquivos dentro das pastas e diretórios, da
mesma forma como são procedidas as pesquisas na internet.
Atualmente o software que tem licença gratuita para uso residencial ou
corporativo está em sua versão de testes número 4. Ao longo de sua criação e

49
evolução através das versões “beta test” muitas ferramentas e novidades vêm sendo
acopladas ao software a fim de disponibilizar ao usuário final uma experiência
interativa e excitante com o mundo virtual.
Através da disponibilização ao público da versão SDK para desenvolvimento
do programa e da abertura de sua API, muitos colaboradores têm desenvolvido
inovações que trabalham em conjunto com o software original (plug-ins), algumas de
utilidade relativa, porém benéficas em sua maioria, possibilitando ao usuário extrair o
melhor proveito acerca de todas as possibilidades que este software pode oferecer.
Evidentemente, o uso corporativo do programa dispensa a aplicação de todas
estas novidades, que se prestam em sua maioria ao usuário final. Mas nada impede
que, restringindo-se algumas funcionalidades acessórias, este software possa
prestar relevante contribuição ao trabalho policial desenvolvido pelos setores de
inteligência da corporação.
Embora o mecanismo de interligação entre as informações contidas em
diversos computadores seja disponibilizada, em sua versão gratuita, pela Google de
uma forma que não interessa ao Departamento de Polícia Federal, no que tange aos
quesitos de segurança da informação, existem formas de adaptá-lo para funcionar
em rede de uma forma segura e eficaz. Isto será discutido no próximo capítulo,
destinado à exposição do Projeto proposto. As funcionalidades adicionais do citado
software podem ser conhecidas, na íntegra, a partir de sua homepage no endereço:
Google Desktop - Sobre .
4.2.1 Aspectos legais - EULA – Licença de uso

50
Inicialmente, passaremos a analisar a licença de uso do software proposto a
fim de aferir os critérios de legalidade de uso e a possibilidade de eventuais
modificações em sua estrutura para adaptá-lo ao uso pelo Departamento de Polícia
Federal. EULA é a abreviação de End User Licence Agreement36 e define os termos
e condições gerais do contrato virtual firmado entre ambas as partes: empresa e
usuário referente ao uso do produto. A partir do endereço:
http://desktop.google.com/pt/BR/eula.html temos acesso à EULA do software,
traduzida oficialmente para o português. A EULA equivalente a um contrato de
licença com o usuário final a qual transcrevo abaixo:
Obrigado por utilizar o Google Desktop! Esta página contém os

termos e condições (“Termos e Condições”) para o Google Desktop e o
Google Desktop (conjuntamente, "Google Desktop") - incluindo nossa
versão corporativa, Google Desktop for Enterprise. Ao fazer o download do
Google Desktop, você concorda com este contrato, seja para você mesmo
ou em nome de seu empregador ou outra entidade e aceita se vincular por
estes termos e condições. Caso você esteja aceitando em nome de seu
empregador ou outra entidade, você afirma e garante que está legalmente
autorizado a vincular seu empregador ou essa entidade a estes termos e
condições. Caso você não tenha autorização legal para vincular, por favor
pressione o botão "Eu não aceito" abaixo.
Uso Único Pessoal ou Corporativo Interno
O Google Desktop é trazido a você para seu uso pessoal ou corporativo

interno em conformidade com todas as leis, normas e regulamentos
aplicáveis. Caso você queira realizar uso comercial do Google Desktop,
incluindo, mas não se limitando a vendas ou distribuição do Google
Desktop em troca de pagamento, você deve firmar um contrato com a
Google ou obter a permissão prévia e expressa da Google. Caso você seja
inquirido a se registrar você deve fornecer identificação, contato, e outras
informações completas e precisas como parte do processo de registro. A
Google reserva o direito, a seu inteiro critério, de recusar ou descontinuar a
participação de qualquer requerente a qualquer momento.
Ações Proibidas
Salvo para distribuições corporativas internas e/ou uso pessoal dos

empregados ou contratados em conformidade com estes Termos e
36
concordância do usuário com os termos de utilização do software. Tradução livre do autor.
51
Condições, você não poderá distribuir o Google Desktop ou quaisquer

serviços ou software associados à ou derivados dele, modificar, copiar,
licenciar, ou criar obras derivadas do Google Desktop, a não ser que você
obtenha a permissão prévia e expressa da Google. Caso você deseja
realizar algo do acima descrito, por favor nos contate visitando a página
desktop.google.com/feedback.html.
Distribuição
Assim que você obtiver a permissão da Google, você poderá fazer cópias
do Google Desktop e distribuir tais cópias a outros, tendo em vista que
qualquer receptor tenha tido a oportunidade de examinar e concordar em
se vincular por estes Termos e Condições. Caso outros a quem você
gostaria de distribuir o Google Desktop não tenham a oportunidade de
examinar e concordar com estes Termos e Condições, mas ainda assim
você queira distribuir cópias a eles, você poderá fazê-lo desde que você
tenha o direito legal de vincular cada um destes terceiros a estes Termos e
Condições. Caso você não tenha este direito e os receptores não tenham a
oportunidade de examinar e concordar com estes Termos e Condições,
você não poderá distribuir o Google Desktop a eles. Caso você tenha
alguma pergunta relacionada aos termos de distribuição, por favor nos
contate visitando a página desktop.google.com/feedback.html.
Atualizações Automáticas
O Google Desktop poderá se comunicar com os servidores da Google (a

não ser que você esteja utilizando o Google Desktop para uso corporativo
interno e sua configuração impeça esta comunicação) para checar por
atualizações disponíveis do software, tais como correções de erros,
contornos ("patches"), funções aprimoradas, plug-ins ausentes e novas
versões (coletivamente, "Atualizações"). Durante este processo, o Google
Desktop envia à Google uma solicitação pela informação sobre a versão
mais recente. Ao instalar o Google Desktop (a não ser que você esteja
utilizando o Google Desktop para uso corporativo interno e sua
configuração impeça esta comunicação), você neste ato concorda em
solicitar e receber automaticamente as Atualizações dos servidores da
Google.
Prática de Informação
Proteger a privacidade do usuário é muito importante para a Google. Como

condição para fazer o download e utilizar o Google Desktop, você aceita os
termos da Política de Privacidade do Google Desktop, a qual poderá ser
atualizada de tempos em tempos, conforme expresso na versão existente
mais recente no momento de seu uso. Informações coletadas pela Google
poderão ser arquivadas e processadas nos Estados Unidos ou qualquer
outro país em que a Google Inc. ou seus agente mantenham instalações.
Ao utilizar o Google Desktop você aceita tal transferência de informação
fora de seu país.
Propriedade Intelectual
52
Você reconhece que a Google ou terceiros detêm todos os direitos, títulos

ou interesses referentes ao Google Desktop, partes do mesmo ou software
ou conteúdo fornecido em conjunto com ou através do Google Desktop,
incluindo sem quaisquer limites os Direitos de Propriedade Intelectual.
"Direitos de Propriedade Intelectual" consistem em todo e qualquer direito
existente sobre a lei de patente, lei de direito autoral, lei do segredo de
negócio, legislação marcária, lei da concorrência desleal, e todos e
quaisquer direitos de propriedade de toda e qualquer aplicação, renovação,
extensão e restauração dos mesmos, a partir da presente data, em vigor
em qualquer parte do mundo. Você concorda em não (e não permitir
terceiros) modificar, adaptar, traduzir, criar obras derivadas, descompilar,
fazer engenharia reversa, desmontar ou tentar de qualquer outro modo
derivar o código-fonte do Google Desktop, ou extrair porções significativas
dos arquivos do Google Desktop para utilizar em outros aplicativos. Do
mesmo modo, concorda em não remover, obscurecer ou alterar o aviso de
direito autoral, de marcas e outros avisos de direitos de propriedade da
Google ou terceiros, afixados, incluídos ou acessados em conjunto com ou
através do Google Desktop.
Opiniões ("Feedback")
Caso você tenha comentários sobre o Google Desktop ou idéias sobre

como aperfeiçoá-lo, por favor visite a página
desktop.google.com/feedback.html. Por favor note que ao fazê-lo, você
também concede à Google ou terceiros uma perimissão de utilizar e
incorporar suas idéias ou comentários ao Google Desktop (ou software de
terceiros ou conteúdo) sem qualquer remuneração ou aprovação.
Você estará então cedendo e transferindo todos e quaisquer direitos sobre

tais idéias e sugestões na máxima extensão permitida pela lei aplicável.
Modificações aos Termos e Condições
A Google reserva o direito, a seu inteiro critério, de modificar estes Termos

e Condições de tempos em tempos, sem notificação ou responsabilidade à
você. Você aceita se vincular a estes Termos e Condições, conforme
modificados. Por favor examine a versão mais atual dos Termos e
Condições de tempos em tempos, localizados na página
desktop.google.com/eula.html (ou o endereço sucessor, conforme
fornecido pela Google), para que você tenha conhecimento de quaisquer
alterações.
Isenção de Garantias
A GOOGLE E QUAISQUER TERCEIROS QUE COLOQUEM À

DISPOSIÇÃO SEU SOFTWARE OU CONTEÚDO EM CONJUNTO COM
OU ATRAVÉS DO GOOGLE DESKTOP EXIMEM-SE DA
RESPONSABILIDADE SOBRE QUAISQUER PREJUÍZOS RESULTANTES
DA SUA UTILIZAÇÃO (OU UTILIZAÇÃO POR SEUS EMPREGADOS,
AGENTES OU CONTRATADOS) DO GOOGLE DESKTOP E/OU
QUALQUER SOFTWARE DE TERCEIROS OU CONTEÚDO ACESSADOS
EM CONJUNTO COM OU ATRAVÉS DO GOOGLE DESKTOP.
53
O GOOGLE DESKTOP E QUALQUER OUTRO SOFTWARE E

CONTEÚDO DE TERCEIROS COLOCADO À DISPOSIÇÃO EM
CONJUNTO COM OU ATRAVÉS DO GOOGLE DESKTOP SÃO
FORNECIDOS "NO ESTADO EM QUE SE ENCONTRAM", SEM
QUAISQUER GARANTIAS. A GOOGLE E OS REFERIDOS TERCEIROS
EXIMEM-SE EXPRESSAMENTE, NA MÁXIMA EXTENSÃO PERMITIDA
POR LEI, DA RESPONSABILIDADE SOBRE TODAS AS GARANTIAS E
CONDIÇÕES, EXPRESSAS, IMPLÍCITAS OU PREVISTAS POR LEI,
INCLUINDO MAS NÃO SE LIMITANDO A QUAISQUER GARANTIAS OU
CONDIÇÕES IMPLÍCITAS DE COMERCIALIZAÇÃO, ADEQUAÇÃO A UM
FIM ESPECÍFICO E NÃO-VIOLAÇÃO DOS DIREITOS DE
PROPRIEDADE. A GOOGLE E QUALQUER TERCEIRO QUE COLOQUE
SEU SOFTWARE OU CONTÚDO À DISPOSIÇÃO EM CONJUNTO COM
OU ATRAVÉS DO GOOGLE DESKTOP NEGAM TODAS AS GARANTIAS
E CONDIÇÕES REFERENTES À SEGURANÇA, CONFIABILIDADE,
CONVENIÊNCIA E DESEMPENHO DO GOOGLE DESKTOP E DO
SOFTWARE OU CONTEÚDO DE REFERIDOS TERCEIROS. VOCÊ
ENTENDE E CONCORDA QUE FAZ O DOWNLOAD DO E/OU UTILIZA O
GOOGLE DESKTOP E TODO SOFTWARE OU CONTEÚDO DE
TERCEIROS DISPONÍVEL EM CONJUNTO COM OU ATRAVÉS DO
GOOGLE DESKTOP POR SUA PRÓPRIA CONTA E RISCO, E QUE
SERÁ O ÚNICO RESPONSÁVEL POR QUAISQUER DANOS AO SEU
SISTEMA INFORMÁTICO OU PERDA DE DADOS QUE POSSAM
RESULTAR DO DOWNLOAD OU UTILIZAÇÃO DO GOOGLE DESKTOP E
DO REFERIDO SOFTWARE E CONTEÚDO DE TERCEIROS. ALGUNS
ESTADOS OU OUTRAS JURISDIÇÕES NÃO PERMITEM A ISENÇÃO DE
GARANTIAS IMPLÍCITAS, DE MODO QUE AS ISENÇÕES ACIMA
PODEM NÃO SE APLICAR A VOCÊ. VOCÊ PODE TAMBÉM TER
OUTROS DIREITOS QUE VARIAM DE ESTADO PARA ESTADO E DE
JURISDIÇÃO PARA JURISDIÇÃO.
Limitação de Responsabilidade
NA MÁXIMA EXTENSÃO PERMITIDA PELA LEI APLICÁVEL, EM

HIPÕTESE ALGUMA A GOOGLE, OU TERCEIROS QUE COLOQUEM À
DISPOSIÇÃO O SEU SOFTWARE OU CONTEÚDO EM CONJUNTO COM
OU ATRAVÉS DO GOOGLE DESKTOP, SERÃO RESPONSÁVEIS
PERANTE QUALQUER USUÁRIO PELO USO OU MAU USO DO
GOOGLE DESKTOP, OU DE QUALQUER SOFTWARE OU CONTEÚDO
DE REFERIDOS TERCEIROS, POR PARTE DESSE MESMO USUÁRIO.
ESSA LIMITAÇÃO DE RESPONSABILIDADE DEVERÁ APLICAR-SE
PARA EVITAR O RESTABELECIMENTO DE DANOS INDIRETOS,
INCIDENTAIS, CONSEQÜENCIAIS, ESPECIAIS, EXEMPLARES E
PUNITIVOS QUER SE ESSAS RECLAMAÇÕES SE BASEAREM EM
GARANTIA, CONTRATO, ATO ILÍCITO (INCLUINDO NEGLIGÊNCIA) OU
QUALQUER OUTRO (MESMO QUE A GOOGLE E/OU UM
FORNECEDOR DE SOFTWARE OU CONTEÚDO DE TERCEIRO TENHA
SIDO ALERTADO DA POSSIBILIDADE DE TAIS DANOS). ESTA
LIMITAÇÃO DE RESPONSABILIDADE DEVERÁ SE APLICAR SE OS
DANOS FOREM ORIUNDOS DO USO OU MAU USO DO E CONFIANÇA
NO GOOGLE DESKTOP E TODO SOFTWARE OU CONTEÚDO DE
TERCEIROS COLOCADO À DISPOSIÇÃO EM CONJUNTO COM OU
ATRAVÉS DO GOOGLE DESKTOP, EM CONSEQÜÊNCIA DA
INCAPACIDADE DE USAR O GOOGLE DESKTOP E TODO SOFTWARE
OU CONTEÚDO DE TERCEIROS COLOCADO À DISPOSIÇÃO EM
CONJUNTO COM OU ATRAVÉS DO GOOGLE DESKTOP, OU DA
INTERRUPÇÃO, SUSPENSÃO OU TÉRMINO DO GOOGLE DESKTOP E
TODO SOFTWARE E CONTEÚDO DE TERCEIROS COLOCADO À
54
DISPOSIÇÃO EM CONJUNTO COM OU ATRAVÉS DO GOOGLE

DESKTOP (INCLUINDO TAIS DANOS INCORRIDOS POR TERCEIROS).
ESTA LIMITAÇÃO DEVERÁ SE APLICAR, NÃO OBSTANTE A FALHA DO
FIM ESSENCIAL DE QUALQUER RECURSO LIMITADO E NA MÁXIMA
EXTENSÃO PERMITIDA POR LEI. NÃO OBSTANTE QUALQUER
DISPOSIÇÃO EM CONTRÁRIO, AS PARTES ENTENDEM E
CONCORDAM QUE NA MÁXIMA EXTENSÃO PERMITIDA POR LEI, O
TOTAL AGREGADO DE RESPONSABILIDADE DA GOOGLE SOB ESTE
ACORDO NÃO DEVERÁ EXCEDER R$ 1300 (REAIS). VOCÊ
RECONHECE AINDA QUE ESTA LIMITAÇÃO É ELEMENTO ESSENCIAL
DESTE ACORDO E QUE A GOOGLE NÃO EXECUTARIA ESTE ACORDO
SEM ESTAS LIMITAÇÕES DE SUAS RESPONSABILIDADES. ALGUNS
ESTADOS OU OUTRAS JURISDIÇÕES NÃO PERMITEM A EXCLUSÃO
OU A LIMITAÇÃO DE RESPONSABILIDADE POR DANOS INCIDENTAIS
OU CONSEQÜENCIAIS, DESSE MODO, AS LIMITAÇÕES E AS
EXCLUSÕES ACIMA PODEM NÃO SE APLICAR A VOCÊ.
Provisões Variadas
Estes Termos e Condições serão regidos por e interpretados conforme as

leis do Estado da Califórnia, sem dar efeito ao conflito de provisões de leis
da Califórnia ou do seu Estado atual ou país de residência. Para fins de
determinação da lei regente, as partes reconhecem e concordam que a
Google é proponente destes Termos e Condições e das transações nele
incorporadas neste instrumento. Se por qualquer razão uma corte de
jurisdição competente julgar inaplicável qualquer provisão ou parcela
destes Termos e Condições, o restante destes Termos e Condições
continuará em plena força e efeito. Estes Termos e Condições constituem o
acordo integral entre as partes com respeito ao presente tópico e
substituem todos os entendimentos ou acordos prévios ou
contemporâneos, escritos ou orais, com respeito a tal tópico. A renúncia de
qualquer provisão destes Termos e Condições será efetiva somente se
escrita e assinada pela Google e/ou por um terceiro que coloque seu
software e/ou conteúdo à disposição em conjunto com ou através do
Google Desktop.
4.2.1.1 Análise dos aspectos legais
Como podemos observar, não é apenas no Brasil que são redigidos contratos
com cláusulas “leoninas”, ao arrepio dos mais comezinhos princípios do Direito
Internacional. Entretanto, analisando-se com mais atenção o texto do contrato, na
parte que interessa ao Departamento de Polícia Federal, podemos observar que no

55
parágrafo referente às ações proibidas encontra-se expressamente autorizada
modificações no conteúdo do software, dispensada qualquer autorização da Google,
para uso corporativo sem a obtenção de lucro, senão vejamos:
Salvo para distribuições corporativas internas e/ou uso pessoal dos

empregados ou contratados em conformidade com estes Termos e
Condições, você não poderá distribuir o Google Desktop ou quaisquer
serviços ou software associados à ou derivados dele, modificar, copiar,
licenciar, ou criar obras derivadas do Google Desktop, a não ser que
você obtenha a permissão prévia e expressa da Google (grifo meu)
No que tange ao direito à propriedade intelectual, observamos subjetivamente
que basta a adição de referência aos direitos autorais da Google sobre o software
em questão e ao registro da marca para que qualquer modificação no layout da
interface de acesso ao aplicativo subsista em conformidade com os termos do
contrato:
“...Você concorda em não (e não permitir terceiros) modificar, adaptar,

traduzir, criar obras derivadas, descompilar, fazer engenharia reversa,
desmontar ou tentar de qualquer outro modo derivar o código-fonte do
Google Desktop, ou extrair porções significativas dos arquivos do Google
Desktop para utilizar em outros aplicativos. Do mesmo modo, concorda
em não remover, obscurecer ou alterar o aviso de direito autoral, de
marcas e outros avisos de direitos de propriedade da Google ou
terceiros, afixados, incluídos ou acessados em conjunto com ou através do
Google Desktop.” (grifo meu).
4.2.2 Funcionalidade – forma de compilação das informações
Assim que devidamente instalado, o aplicativo solicita a interferência do
usuário para que o mesmo configure suas opções de funcionamento. Tais opções
podem ser posteriormente modificadas e acessadas através do ícone criado na

56
barra de ferramentas do computador onde foi instalado o GDS, acessando-se a
opção “preferências”. A tela de configuração do aplicativo está dividida em 04
(quatro) abas, que serão analisadas a seguir, tomando-se como base a versão beta
do Google Desktop 4.2006.0627.0501-pt-BR-pb, instalada na máquina que servirá
de protótipo para a demonstração do Projeto proposto. A primeira aba diz respeito
às configurações gerais:
Ilustração 4
No primeiro campo da primeira aba temos disponibilizados os tipos de
arquivos que serão indexados. A tela mostrada acima já apresenta adaptações para
o uso pelo Departamento de Polícia Federal, sendo que podemos observar o
logotipo da Polícia Federal no canto superior esquerdo e a opção “degravações”
constante na lista de itens apresentados. A seguir passo a analisar cada uma das
opções apresentadas e seu interesse para o trabalho de investigação policial:

57
• E-mail: é toda e qualquer correspondência recebida por meio de meio
eletrônico. Existem duas maneiras de acessarmos um e-mail: através da
webpage do provedor, ex: https://canario.dpf.gov.br ou 10.61.5.2, URL e
endereço IP respectivamente, da página de web-mail do Departamento de
Polícia Federal. Ou através de programas que permitem baixar diretamente o
conteúdo das mensagens e anexos em locais pré-definidos na própria
máquina, ex: Microsoft Outlook, Outlook express, incredimail, etc. A partir do
momento em que é utilizado qualquer programa que permita fazer o download
das mensagens do servidor de e-mail para o computador em questão é
possível indexar as mensagens baixadas, na íntegra, através do GDS. A
utilidade na escolha desta opção reside na possibilidade de indexação de
Relatórios de Inteligência Policial (RIPs), enviados quase que diuturnamente
às chefias das Divisões componentes da DCOR/DPF, relatando acerca das
operações em andamento nos diversos Estados da Federação.
• Degravação: é a síntese em texto produzida pelo analista de informações
acerca do conteúdo dos áudios capturados no decorrer de uma investigação,
devidamente acobertados pelo segredo de justiça, mediante ordem judicial
explícita autorizando a quebra de sigilo telefônico dos alvos investigados. Os
arquivos gerados pelos softwares “Guardião” e “Bedin” – os mais utilizados no
DPF– encontram-se em formato .RTF (rich text format). Destarte, foram feitas
adaptações para que tal formato fosse incluído nas opções de indexação
geral de arquivos.
58
• Histórico da WEB: indexa as páginas da internet visitadas pelo usuário da
máquina hospedeira, gerando uma versão em cache (somente texto) da
mesma. O objetivo do presente Projeto é não indexar as páginas navegadas
na internet pelos usuários, mas tão somente os arquivos de interesse para as
investigações. Tendo em vista que a máquina host37 será um servidor de
arquivos que não acessará a internet e que o cache do browser38 das
máquinas clientes não será indexado por default, tal opção poderia ser
desativada. Entretanto, tendo em vista que as pesquisas são
obrigatoriamente realizadas através de interfaces HTML (característica
própria da WEB), seria interessante ativar esta opção para enriquecer a
pesquisa dos analistas, visto que cada pesquisa realizada gerará um novo
cache automático, elevando o critério de “Page Ranking” acerca de
investigações realmente relevantes, realçando os critérios mais utilizados nas
buscas pelos próprios analistas, o que refletiria em resultados mais precisos
acerca das operações de intercambio interestadual em andamento.
• Arquivos de mídia: são todos os arquivos de vídeo e fotografias contidos
dentro de determinada máquina. As extensões possíveis são variadas, porém
importa frisar que arquivos de áudio gerados pelos softwares “guardião” e
“Bedin” estão entre os formatos suportados, podendo ser indexados pelo
título do arquivo e, em curto prazo, pelo conteúdo do áudio incluído no vídeo
objeto de pesquisa através do uso de “codecs”39 a serem incorporados no
presente aplicativo, porém atualmente em fase de testes. Além disto, todas as
3
37
Host: Computador central. Também chamado de servidor ou nó, por vezes.

38
Browser: sinônimo de navegador da internet. Ex: Internet Explorer, Firefox, Opera, etc.
39
Codecs são tradutores digitais. Codificador-Decodificador, algoritmo de compressão/descompressão da dados.
59
fotografias de indiciados conhecidos e disponíveis em mídia digital em todo o
País serão rapidamente indexadas através da ativação desta opção.
• Texto e outros arquivos: através da ativação desta opção podem ser
indexados todos os arquivos contendo apenas texto puro, notas, linguagem
de programação e tudo aquilo que se expressa no mundo real através de
caracteres passíveis de impressão (letras, números, códigos e símbolos).
• Word, Excel e Powerpoint: Representam a grande maioria de arquivos
gerados pelo Microsoft Office da Microsoft. 99% (noventa e nove por cento)
dos documentos existentes atualmente na Polícia Federal foram criados
através do software Microsoft Office. Planilhas de cálculos e de cruzamentos
de dados telefônicos são quase sempre criadas através do software Microsoft
Excel e apresentações de slides através do Microsoft Powerpoint. Todos
esses arquivos são suscetíveis de indexação a fim de possibilitarem uma
rápida busca de seu conteúdo através de palavras-chaves.
• PDF: São arquivos gerados através do software Acrobat Reader, o qual
consegue compactar e diminuir consideravelmente o tamanho de arquivos
que mesclam texto, imagens e gráficos no mesmo trabalho. Muitos analistas
de informações e empresas de telefonia se utilizam deste formato para a
elaboração de Relatórios de Inteligência e de Cruzamento Telefônico
respectivamente.
• Opções restantes: Embora úteis ao usuário residencial não serão aqui

60
abordadas por não interessar ao trabalho corporativo estrito de Inteligência
Policial, podendo remanescer desmarcadas.
O campo em seguida refere-se à ativação ou não de plug-ins utilizados pelo
aplicativo. Plug-ins, como anteriormente citado são inovações em termos de
programação de dados que se incorporam ao software original potencializando suas
funcionalidades. Serão discutidos em separado mais adiante.
Na seqüência, o próximo campo trata da possibilidade de se indexar pastas
compartilhadas ou unidades de redes locais, mapeadas pela própria máquina, como
podemos ver na ilustração abaixo:
Ilustração 5
Esta opção é o diferencial do “Google Desktop Search” em relação aos
demais mecanismos de busca locais citados em tópicos anteriores. Através da
ativação desta opção é possível indexar o conteúdo de pastas de computadores

61
remotos, localizadas dentro de uma rede local, desde que a pasta de origem na
estação cliente esteja compartilhada e acessível ou pastas remotas publicadas na
WEB – O que é impensável em se tratando de informações policiais sensíveis e
confidenciais, tendo em vista o princípio da segurança da informação – através de
comandos básicos aplicados na máquina host que pode ser também uma estação
cliente do servidor.
Esta opção foi devidamente adaptada para funcionar com grau eficaz de
segurança e se constitui no salto dado pelo Projeto Prometheus em relação às
demais formas de compartilhamento de informações através de mecanismo de
buscas. O detalhamento geral do funcionamento do sistema baseado na
modificação destas opções será visto mais adiante, no capítulo 5.
O próximo campo diz respeito às limitações da busca. Ora, nem toda
informação contida em uma máquina cliente ou servidor pode ser considerada fonte
de informação. Muitos documentos ou informações pessoais podem estar contidos
dentro de uma máquina cliente.
É papel do especialista do domínio distinguir entre o que é ou não é fonte de
conhecimento, mormente em se tratando de informações que versam sobre
inteligência policial. Esta opção permite ao Administrador do sistema excluir da
busca aquilo que não está afeito ao propósito de se criar um banco de dados
restrito.
Por exemplo: ao se incluir a pasta C:\Documents and settings\usuário X neste
campo, todos os documentos, e-mails, etc. referentes ao usuário desta máquina
serão excluídos da busca. Apenas as pastas localizadas na raiz do diretório C:\ da
máquina serão indexadas. Isto permite flexibilidade na configuração do sistema por
parte do Administrador e a preservação da privacidade do usuário final.

62
O próximo campo diz respeito à opção de se criptografar ou não o índice
gerado pelo aplicativo. A tentação em fazê-lo pode ser grande, porém testes práticos
levados a efeito demonstraram que técnicas de engenharia reversa, as quais não
explicitarei aqui, podem facilmente descriptografá-lo. Isto aliado ao fato de que a
ativação desta opção realmente acarreta um declínio significativo na velocidade da
pesquisa torna esta opção inviável.
Outras opções de segurança criptográfica serão propostas nos próximos
capítulos a fim de não diminuir o desempenho geral do sistema proposto.
A desativação de novos itens é apenas uma questão de segurança. Caso a
base de dados permaneça estável, sendo apenas acrescidos itens julgados
irrelevantes esta opção pode ser ativada. Em caso contrário, deve permanecer
desativada para fazer frente à quantidade diária crescente de dados incluídos no
domínio DCOR7.
A opção a seguir merece especial abordagem. Trata da possibilidade de excluir
ou não dos índices os arquivos excluídos fisicamente da máquina host. Testes em
campo demonstraram que a ativação desta opção reduz significativamente o
desempenho do servidor e a velocidade das buscas, pois toda vez que o índice é
consultado para ser disposto na interface gráfica o sistema compara o índice com o
registro de clusters do HD40 a fim de saber se pode ou não disponibilizar aquele
tópico específico.
Não obstante, é interessante para uma base de dados que ela fique
independente da ação deletéria comumente associada ao usuário final. Na hipótese
de que um usuário final venha excluir algum arquivo acidentalmente, por exemplo,
restará a versão em cache do arquivo para ser consultada, possibilitando inclusive a
restauração parcial das informações relevantes constantes no arquivo deletado.

40
HD: abreviação de Hard Disk ou disco rígido. Local onde são armazenadas as informações eletronicamente.
63
A exclusão direta no índice de tópicos que não interessam à base de dados, a
fim de se eliminar o ruído existente, pode ser feita de outra forma que será tratada
mais adiante.
Ilustração 6
A aba seguinte, conforme ilustrado acima, trata de opções avançadas e mais
afeitas a usuários do G-mail do Google e do ORKUT. Faculta ainda a indexação do
conteúdo de gadgets41 do Google - nocivos em nossa opinião, pela possibilidade de
abrir brechas de segurança na máquina onde o aplicativo está instalado.
A partir da ativação da opção “pesquisar em todos os computadores”, é
gerado um índice múltiplo de cada máquina conectada e logada com a mesma conta
privativa do GOOGLE, que pode ser obtida através do G-mail, do ORKUT ou de uma
conta independente criada nos servidores da Google.
Tais índices são armazenados nos servidores centrais da Empresa nos EUA
41
Gadgets: Tradução: dispositivo eletrônico ou mecânico. Denominação atribuída aos acessórios do software.
64
e embora a política de privacidade da empresa acerca da ativação deste recurso
avançado garanta a preservação da privacidade e sigilo dos dados trafegados, isto
tem gerado muitas críticas nos meios de TI, pois de qualquer forma eles serão
temporariamente hospedados nos servidores da empresa nos EUA, vulnerabilizando
qualquer política de segurança da informação corporativa. A política de segurança
da empresa acerca deste recurso específico pode ser acessada a partir dos
endereços abaixo:
http://desktop.google.com/features.html
http://desktop.google.com/privacypolicy.html
Recomenda-se que todas as opções presentes nesta página permaneçam
desativadas:
65
Ilustração 7
A aba a seguir representada pela ilustração de nº. 07, traz opções de
pesquisa que interessam mais ao usuário final que tem o aplicativo instalado em sua
própria máquina do que ao Administrador que tem um servidor configurado para
centralizar a consulta do aplicativo. Nela podemos ver as opções disponíveis de
localização da barra de pesquisa e/ou opções do “Google Desktop Search”, quer
seja à direita do desktop, flutuante, fixa na barra de tarefas ou nenhuma.
Ilustração 8
Em seguida temos a opção de ativação da barra de pesquisas rápida, que
não interessa ao serviço prestado em rede e logo abaixo a preferência de pesquisa.
Neste campo é revelada a possibilidade de integração do aplicativo com seu primo-
irmão, incansável pesquisador da WEB. Esta opção deve estar sempre ativada
como “pesquisar no Desktop” por padrão. Caso contrário os resultados obtidos não
66
refletirão a realidade da base de dados que realmente interessa que é a
armazenada localmente.
A opção a seguir se constitui em uma miscelânea que, na opinião do Autor,
deveria estar configurada sempre desta forma:
• Mostrar resultados enquanto digito: essa opção somente tem aplicação
prática quando o software está sendo executado localmente na máquina host.
Para funcionamento em rede torna-se desnecessária. É sugerida a
desativação por “default”;
• Exibir “X” resultados por pesquisa: Esse campo define o parâmetro de
retorno das pesquisas rápidas em termos de metadados obtidos. O ideal é
que sempre se situe no máximo possível a fim de facilitar sua visualização por
parte do analista de informações. Somente tem aplicação para uso local, não
tendo utilidade alguma para o uso integrado em rede. O limite atual é de 10
(dez) resultados por página;
• Pesquisar por padrão ou iniciar programas arquivos automaticamente:
Esta opção deve ser sempre configurada como “pesquisar por padrão” pois
não é interessante a abertura dos arquivos encontrados mas sim da sua cópia
em cache, onde os termos da busca são realçados na cor amarela dentro do
texto, a fim de facilitar o trabalho do analista de informações;
• Exibir “X” resultados por pesquisa: Esse campo define o parâmetro de
retorno das pesquisas em termos de metadados obtidos a partir do servidor.

67
O ideal é que sempre se situe no máximo possível a fim de facilitar sua
visualização por parte do usuário. O limite atual é de 100 (cem) resultados por
página.
• A opção integração com o GOOGLE é proibitiva para uso corporativo. Se o
interesse é na pesquisa de dados contidos na intranet local ao invés da
internet esta opção deve permanecer desativada.
Ilustração 9
A última aba, representada pela ilustração de nº. 9, diz respeito à ativação ou
não dos recursos avançados. Os recursos avançados são necessários para a busca
em computadores integrados, nos moldes do que é proposto pela Google, pois
possibilitam a remessa dos índices para os servidores centrais da companhia
situados no Estado da Califórnia, nos EUA, para posterior consulta por parte das
68
máquinas integrantes de forma individualizada.
Da forma como está proposto o Projeto Prometheus e de acordo com a
política de segurança da informação prevista nos regulamentos do Departamento de
Polícia Federal a ativação desta opção é um tanto quanto desnecessária como
proibitiva e perigosa. Deve ser desativada por “default”.
4.2.3 Como pesquisar na base de dados
Não basta a criação de um mecanismo de busca eficiente em um banco de
dados. É necessária a cooperação do analista de informações. Como vimos
anteriormente, a busca pela descoberta de conhecimento em bases de dados
envolve conceitos de mineração de dados e mecanismos de busca.
Mesmo suprimindo-se a fase de pré-processamento dos dados, como se
propõe, torna-se inevitável o enfrentamento das fases subseqüentes quais sejam a
aplicação dos métodos (uso dos algoritmos) e do pós-processamento dos dados
(extração de informação relevante).
A última etapa ainda depende quase que exclusivamente do discernimento
humano, porém é na aplicação dos métodos que ainda ocorrem as maiores falhas
as quais impedem que a informação seja acessada em sua plenitude.
Como pesquisar? Como utilizar as ferramentas disponíveis para encontrar a
informação almejada? Cada ferramenta de busca apresenta o seu manual de
instruções individualizado. Cada qual querendo esconder de seus rivais comerciais
os segredos de seus produtos para que não sejam copiados pelos concorrentes
69
comerciais.
Aparentemente, nem a ferramenta proposta, o GDS, escapou ileso à guerra
comercial travada nos bastidores do mundo digital. Em sua homepage42, são
descritos procedimentos de busca genéricos, de como utilizar melhor a ferramenta
colocada à disposição dos usuários. Tais informações podem ser acessadas a partir
do endereço: http://desktop.google.com/features.html#advancedsearch.
Contudo, no citado endereço não são disponibilizados os parâmetros ideais
de busca de dados. É omitido inclusive o uso de operadores booleanos43,
característicos das análises estatísticas e que poderiam facilitar a pesquisa. É
preciso saber que não basta digitar uma seqüência de palavras chave e aguardar
que o software resolva sozinho a questão para o usuário.
Esta é a fase mais delicada do processo, pois exige a interação usuário-
máquina. Suprindo a carência deixada pelos autores do software, enumera-se
abaixo os procedimentos de busca ideais tanto no uso do GDS como no uso da
Ferramenta Google na internet, a fim de transformar a pesquisa de dados em uma
fonte rica e segura de informações relevantes:
• Coloque o objeto de sua pesquisa entre aspas. O número de documentos
encontrados será menor, mas com maior qualidade.
• Quando procurar um nome com sobrenome, use vírgulas. Exemplo: Danes,
Claire. A resposta será mais precisa do que se digitasse Claire Danes.
• Na pesquisa de nomes, use minúsculas, mas com a primeira letra em
maiúscula, pois se você fizer uma busca, por exemplo, por carlos silva, pode
chegar a páginas que mostram itens que foram batizados com nomes
42
HomePage: página de origem, página pessoal, primeira página.
43
Booleano: Sinônimo de operador lógico. Operador de álgebra de Boole, matemático criador deste sistema.
70
próprios, como os logradouros públicos.
• Se não souber qual a grafia correta de uma palavra, você pode usar o
(asterisco - *). Exemplo: você procura o nome Christopher, mas não sabe
como se escreve. Digite C*risto* e terá páginas que contém Christopher (em
meio a outros termos semelhantes, como Jesus Cristo, Cristianismo, etc).
• Para fazer uma busca exata, coloque um ponto final na palavra a ser
pesquisada.
• Quando se trata de endereços (URL), é melhor utilizar dois pontos antes do
assunto que você deseja pesquisar. Digitando, por exemplo: url:shareware, o
buscador irá encontrar sites que tenham a palavra shareware em sua url. Se
você digitar: tex:saúde, obterá páginas que contêm a palavra saúde.
• Ao se pesquisar associação de idéias através de palavras-chave, podemos
usar o operador til (~) seguido da palavra a ser pesquisada, sem espaços.
Por exemplo: ao se digitar ~dark retornam resultados ligados à palavra
escuridão assim como neologismos como “gótico”.
• - Operadores booleanos: servem para refinar ainda mais as pesquisas:
o AND tem o mesmo significado que o sinal "+". Ex.: hotéis AND "Rio de
Janeiro", retornará sites com hotéis do Rio de Janeiro.
o OR tem o mesmo significado que escrever um nome composto sem as
aspas. Ex.: Rio OR Janeiro irá buscar sites que contenham somente
Rio ou somente Janeiro.
o NOT é uma seleção com seleção. Ex.: hotéis AND "Rio de Janeiro"
NOT Copacabana, irá buscar os sites que contenham hotéis do Rio
que NÃO se localizam em Copacabana.

71
o NEAR garante que duas palavras ou frases de sua busca não deverão
estar mais de dez palavras afastadas de uma obra.
• - Sintaxes especiais do Google: permitem buscas mais específicas, como
por exemplo, apenas no título do texto ou na URL da página referente. Cito
aqui algumas das principais sintaxes utilizadas e que podem ser muito úteis
na busca:
o Define: retorna o conceito a respeito do tema proposto. Por exemplo:
define: google
o intitle: restringe a busca nos títulos das páginas. Por exemplo, você
pode utilizar o seguinte critério: intitle: "virus sasser"
o inurl: faz a busca somente nas URLs desejadas. Vamos supor que se
procuram as seções de cadastro de currículo em diversas web pages.
Sua sintaxe deve ser descrita assim: inurl: "trabalhe conosco". Ou
ainda: inurl: currículo
o intext: este comando verifica unicamente o corpo do texto (ou seja,
ignora o título e os links). Vejamos um exemplo: intext: gaúcho
o inanchor: esta sintaxe serve para buscar descrições de links nas
páginas (as chamadas âncoras). Por exemplo, se você deseja refinar
sua busca no site www.ufpel.edu.br, poderá usar esta sintaxe:
inanchor: "Universidade Federal de Pelotas"
o site: permite que você faça sua busca em um determinado site ou
domínio. Por exemplo: site: ufpel.edu.br (somente nas páginas da
UFPel) ou ainda: site: edu (somente em sites educacionais);
o link: retorna uma lista de páginas relativas a uma URL específica. Não
é necessário digitar http://. Assim, temos: link: www.ufpel.edu.br.

72
Será feita a procura apenas nas páginas que possuem link para o site
da UFPel;
o cache: esta sintaxe busca uma cópia da página indexada pelo Google,
mesmo que ela não esteja mais disponível on line ou que tenha sofrido
alterações. Exemplo: cache: www.pelotas.com.br. Ao abrir a página,
podemos notar que alguns links não estão mais disponíveis e vários
elementos já foram retirados. Isso significa que aquela página foi
atualizada após a indexação do mecanismo;
o daterange: especifica a busca em um determinado período de tempo
no qual aquela página ou documento foi indexado. Nesta sintaxe, é
importante observar dois aspectos: o primeiro ponto é que a data na
qual a página ou documento foi indexado não é a mesma em que ele
foi criado. O segundo ponto é que uma página ou documento pode já
ter sido indexado pelo Google. Além disso, é importante lembrar que
as datas não devem seguir a numeração gregoriana, mas sim a juliana.
Ao digitarmos Julian Date no próprio Google na internet iremos
encontrar vários conversores de formatos de datas. Um exemplo dessa
mesma sintaxe: technology daterange: 2452389-2452389
o related: encontra páginas relacionadas a uma certa web page. É válida
apenas para buscas na internet. Por exemplo: related:www.uol.com ;
o info: sugere uma galeria de páginas que forneçam informações sobre
uma URL específica. Informações, nesse caso, referem-se a links para
cache de URL, uma lista de páginas que servem como link e
webpages vinculadas. Assim, se quisermos informações sobre o site
de notícias da CNN, basta digitar: info: www.cnn.com ;

73
o phonebook: o Google também permite buscas relacionadas a certos
números de telefones, como por exemplo: phonebook: (53) 3275-
7334
Existem muitas outras funcionalidades do aplicativo, porém em sua grande
maioria adaptadas para o idioma inglês e para usuários residentes nos EUA, e que
não interessam ao presente trabalho.
4.2.4 Conteúdo do resultado e filtragem das buscas
A seguir será abordado como o mecanismo de busca disponibiliza seus
resultados através de uma interface gráfica de fácil compreensão para o analista e
para o usuário final. Ao se pesquisar a palavra chave “crime”, dentro do computador
protótipo, é apresentada a tela a seguir:

74
Ilustração 10
Analisando-se minuciosamente esta interface, podemos aferir vários
elementos informativos. Ao lado do logotipo do Departamento de Polícia Federal
aparece nova caixa de texto contendo o termo empregado na pesquisa. Isto além de
confirmar ao usuário se a inserção dos dados foi digitada de forma correta possibilita
o refinamento da pesquisa através da inserção de mais palavras-chaves ligadas à
primeira.
Acima da caixa de texto são dispostos atalhos para links externos de serviços
disponibilizados pela Google. Tais atalhos não foram retirados da interface por
representarem, na opinião do Autor, a possibilidade de enriquecimento da pesquisa.
A veracidade desta afirmação fundamenta-se no princípio de que muitas
informações de interesse policial são veiculadas pelos meios de comunicação na
internet e que tais informações ficam armazenadas nos servidores da Google,
possibilitando consultas posteriores.
É custoso admitir, porém não se pode negar que a Imprensa às vezes obtém
acesso à informação e a divulga antes mesmo das autoridades policiais tomarem
conhecimento do fato.
Os links “preferências do Desktop” e “server options” localizados na parte

75
superior e ao lado do campo “pesquisar” foram adaptados para uso administrativo do
servidor e servem para configurá-lo e fazer os ajustes necessários. Estas
adaptações serão discutidas com mais profundidade no capítulo 5.
O link “pesquisa avançada” possibilita ao usuário o refinamento de sua
pesquisa através da especificação de datas, tipos de arquivo ou parâmetros
específicos, retornando a tela abaixo:
Ilustração 11
Retomando a analise da ilustração de nº. 10, observamos que a primeira
informação fornecida diz respeito à quantidade de arquivos encontrados, sua
natureza e o tempo gasto para a execução da tarefa – menos de um segundo neste
caso. Este campo guarda estreita correlação com as opções de busca delimitadas
durante a configuração do software como visto no item 4.2.2. Os resultados podem
ser filtrados através do tipo de arquivo que se deseja visualizar através do uso desta
opção. Logo abaixo se encontram os links que possibilitam a filtragem dos
resultados por data ou pela relevância.

76
A opção de se pesquisar por ordem cronológica é ativada por “default”, mas
nada impede que se utilize a opção “por relevância”, sendo que neste caso a
pesquisa obedecerá ao critério de “Page Ranking” analisado anteriormente, trazendo
os resultados que o algoritmo julgar estatisticamente mais apropriados.
A opção remover do índice foi adaptada para exigir senha do administrador do
sistema, a fim de impedir remoções acidentais por parte do usuário. Esta opção
faculta ao Administrador a remoção do índice de elementos que se configuram
inapropriados para figurar no resultado da pesquisa. Destina-se à remoção do
“ruído”, sendo que a remoção de um item do índice não implica na remoção física do
arquivo, apenas determina ao algoritmo que marque aquele item específico como
não pesquisável.
O resultado da pesquisa propriamente dito é disponibilizado através de
hiperlinks que levam até o documento original. Abaixo do hiperlink encontra-se um
resumo do contexto onde se encontra a palavra-chave utilizada, a qual aparece em
negrito, para dar uma noção mais apropriada ao usuário acerca da utilidade da
informação que poderia ser obtida através da consulta àquele arquivo.
Abaixo do resumo encontra-se o caminho detalhado da árvore de diretórios
onde se encontra o arquivo matriz, bastando passar o mouse por cima do texto para
se obter o caminho completo.
A opção de acesso direto ao arquivo através do hiperlink e da opção de abrir
pasta foi desabilitada na versão de testes por dois motivos principais: por questões
de segurança e compartimentação, evitando-se a exploração não autorizada de
arquivos sigilosos e do restante do conteúdo das pastas e árvores de diretórios
dispostos hierarquicamente dentro do servidor e cujo compartilhamento não foi
autorizado.
77
Em obediência ao princípio da representação da informação, por não ser
interessante para o usuário a análise de um documento inteiro sendo que a
informação que ele busca pode ser mais facilmente encontrada consultando-se a
versão em cache de texto do arquivo através do link situado após aquele
correspondente à opção “abrir pasta”, como no exemplo abaixo, referente à abertura
do segundo resultado da lista:
Ilustração 12
Ao selecionarmos qualquer das opções em cache listadas, obteremos uma
tela semelhante a esta disposta abaixo, onde o termo é realçado em amarelo para
facilitar sua localização no contexto do documento:

78
Ilustração 13
Analisando-se a tela inicial de resultados em sua parte inferior, como
figura na ilustração subseqüente, podemos observar a existência de um marcador
de páginas que possibilita a navegação pelas páginas de resultados de uma forma
bem prática. Também lá se encontra situada nova caixa de texto de pesquisa com
as mesmas funcionalidades daquela situada na parte superior da interface e, logo
abaixo, um link que direciona o usuário à página de status do índice do aplicativo,
onde são mostradas as estatísticas a respeito do total de arquivos indexados e sua
disposição de forma qualitativa e quantitativa:

79
Ilustração 14
Um detalhe importante e digno de menção é a capacidade própria ao
aplicativo de inserir snapshots44 de visualização de arquivo ao lado dos hiperlinks de
resultados. Isto significa dizer que sempre que o formato do arquivo for suportado
para visualização, um thumbnail45 da foto, do vídeo ou da página correspondente
será mostrado, acelerando o processo cognitivo do usuário em relação à obtenção
da informação almejada. Também é inserido um ícone ao lado do hiperlink a fim de
representar qual o tipo de arquivo está inter-relacionado. O formato destes ícones é
bem intuitivo e de fácil assimilação pelo usuário que desta forma pode filtrar tais
resultados, se dirigindo diretamente àquilo que julgar importante para a pesquisa.
4.2.5 Plug-ins
Em razão da política da empresa Google em liberar sua API para

44
Snapshot: Tradução: Instantâneo
45
Thumbnail: Tradução: Miniatura
80
desenvolvedores, abrindo por assim dizer seu código-fonte ao público de TI, a cada
dia mais e mais inovações são acrescentadas ao software original. Tais inovações
são conhecidas como plug-ins e são testadas pelo corpo de programadores da
Google em relação aos seus critérios de estabilidade e funcionalidade.
Aquelas que apresentam resultados satisfatórios são incorporadas ao
software original e disponibilizadas de forma já integrada nas novas versões de
testes lançadas pela empresa de tempos em tempos.
Existe uma quantidade extremamente grande de plug-ins disponíveis, os
quais podem ser encontrados, baixados e melhor compreendidos acessando-se a
homepage da Empresa Google46.
Como já mencionado, existe uma infinidade de plug-ins disponíveis para as
mais diversas finalidades, todos desenvolvidos por terceiros e em função do GDS.
Não cabe nesta obra uma análise detalhada a respeito de todos eles. Serão
discorridas considerações a respeito apenas daqueles que interessam ao presente
projeto, a saber: DNKA e TWEAK GDS.
Encontra-se em fase de testes com perspectivas promissoras os plug-ins:
“Acess Crawler” e “Omni-Page Search Index”.
4.2.6 Modo de operação e limitações da utilização em rede
O GDS é composto de quatro módulos executáveis, cada um exercendo uma
função diferenciada:
46
Texto disponível a respeito deste assunto a partir de: http://desktop.google.com/plugins/
81
• GoogleDesktop.exe: o módulo principal do programa, gerencia a interação
entre os demais e seus relacionamentos com as bibliotecas de vínculo
dinâmico (DLLs);
• GoogleDesktopIndex.exe: módulo que gerencia a indexação dos arquivos e
a transformação dos resultados obtidos em linguagem de máquina para a
linguagem de texto compreensível ao usuário;
• GoogleDesktopDisplay.exe: módulo que gerencia as interfaces
apresentadas ao usuário e as opções de pesquisa e filtragem de resultados;
• GoogleDesktopCrawl.exe: módulo que gerencia a aplicação do algoritmo de
busca apropriado. Este executável é o responsável pela leitura das
informações contidas no interior dos arquivos e consome porção considerável
de recursos de processamento quando em operação de indexação.
Além dos executáveis também são instaladas na máquina host uma série de
bibliotecas de vínculo dinâmico (DLLs) as quais carregam as instruções de
funcionamento do dispositivo como um todo integrado. O tamanho físico do índice
gerado ocupa espaço em mídia digital correspondente a 0,001% do tamanho original
dos arquivos possibilitando economia estupenda de espaço em disco rígido. Um
servidor apenas, contendo somente um HD com capacidade para armazenar 80
Gigabytes de dados é capaz de hospedar um índice correspondente a 80
Terabytes47 de dados de arquivos. Para fins de compreensão da escala envolvida
poderíamos dizer que em um único servidor de capacidade mediana poder-se-ia
armazenar dados equivalentes a 1000 (mil computadores), repletos de dados, em

47
1 Terabyte = 1000 Gigabytes  1 Gigabyte = 1000 Megabytes  1 Megabyte = 1000 kilobytes.

82
sua capacidade máxima de armazenamento.
O funcionamento do GDS em uma máquina host de forma isolada é
excepcional. A versão de testes nº 4 corrigiu vários bugs48 apresentados nas versões
anteriores e prima por ser extremamente funcional.
Uma das novidades foi a implementação da busca em unidades de rede
mapeadas e pastas compartilhadas na rede local. Embora não seja ainda o ideal
para pesquisas em rede, torna-se muito funcional para integrar dados contidos em
diversos computadores que coexistem no mesmo grupo de trabalho ou apresentam
relação de subordinação ao mesmo controlador de Domínio, muito embora não
consiga fazer a pesquisa em toda a Intranet corporativa. Para isto é necessária a
utilização de subterfúgios, como realizado através do Projeto Prometheus a custo
ínfimo.
Na verdade, não interessa à Empresa Google a disponibilização de forma
gratuita de uma funcionalidade como esta, pois é patente o valor agregado que ela
proporcionaria e, ademais, toda empresa comercial visa o lucro.
No site da empresa são anunciadas para comercialização duas versões do
GDS para edições corporativas adaptadas para pesquisar dentro de uma Intranet.
São apresentadas as versões do “Google Mini” e “Google Search Appliance”, as
quais podem ser acessadas a partir de: http://www.google.com/enterprise/mini/ e
http://www.google.com/enterprise/gsa/ respectivamente. São versões comerciais
apresentadas com hardware próprio, cujo custo se situa a partir de US$ 1,995.00
para a busca de 50.000 documentos até US$ 30,000.00 para a busca de 500.000
documentos ou mais. Ao que parece não faltaram clientes para efetivar a compra49.
48
Bugs: Um Bug é qualquer defeito encontrado em um programa de computador. A palavra é um anglicismo, e

traduz literalmente como inseto.
49
A empresa disponibiliza um link, que pode ser acessado a partir de:
http://www.google.com/enterprise/gsa/success_stories.html onde são registradas as histórias de sucesso e uma
galeria de clientes ilustres, dentre os quais se destacam a NEXTEL, XEROX, DISCOVERY
83
5 O PROJETO PROMETHEUS
O Projeto Prometheus nasceu da curiosidade e do interesse científico do
Autor deste Projeto, que pesquisou com afinco a respeito de como racionalizar e
organizar a informação dentro dos bancos de dados policiais, facilitando a sua
consulta por parte dos analistas de informação.
O impulso inicial foi dado pelo ilustre Delegado de Policia Federal Antônio
Celso dos Santos quando solicitou ao Autor, nos idos de 2004, que organizasse a
enorme quantidade de informações armazenadas dentro dos computadores que
compunham a Divisão de Combate aos Crimes contra o Patrimônio, então lotação
do Autor deste trabalho, à época.
O Autor, analista de informações, observou que seria inviável a aplicação de
técnicas de Data Warehousing para tratar uma base de dados daquelas dimensões
sendo que diariamente chegavam novas informações que eram arquivadas pelos
analistas de forma completamente desestruturada.
A princípio foi tentado que se disciplinasse o arquivamento dos dados, porém
todas as tentativas restaram infrutíferas, pelos mais diversos motivos dentre os quais
a natureza eminentemente dinâmica do trabalho realizado naquela Divisão, com
sucessivas idas e vindas de recursos humanos para outros Estados da Federação a
fim de auxiliar nas Operações em andamento.
Tendo em vista as dificuldades apresentadas para a consecução desta tarefa
hercúlea, voltamo-nos para as promissoras técnicas de mineração de dados
COMUNICATTIONS e a FDA (Food and Drugs Administration - EUA).

84
representadas pelos mecanismos de busca, que tiveram seu boom no mercado
digital no decorrer do ano de 2005.
O raciocínio foi simples: ao tornar-se inviável a fase de pré-processamento
dos dados por fatores tais como custo, falta de tempo e de mão de obra, porque não
passar diretamente para a fase de mineração de dados (MD).
Sabe-se que este é um conceito polêmico, que causa arrepios àqueles que no
meio de TI são classificados como mais ortodoxos, que vêem na ordem e na
organização um pouco de sua razão de viver. Porém, a realidade dos fatos e o
cotidiano do mundo em que vivemos nos apresentam uma outra face: a necessidade
de se pensar em termos de praticidade e baixo custo. Está fadado ao fracasso
aquele que se propuser a tentar algo novo que não preencha obrigatoriamente
esses dois requisitos básicos.
O novo por ser novo já provoca resistências. O que podemos esperar se
estas novas idéias implicarem ainda em aumento de custos ou mudança de hábitos
policiais arraigados há décadas? Desta forma o Autor, se enveredando pelo mundo
dos mecanismos de busca vislumbrou no GDS uma ferramenta inestimável para
integrar dados difusos em pouco tempo e com baixo custo.
Ainda no âmbito da DPAT/DCOR foram realizados testes de campo em
conjunto com as Delepats de diversos Estados brasileiros, experiência de onde
restou comprovada inestimável valia do citado aplicativo para a investigação policial,
tendo inclusive ajudado na análise de casos e apuração de diversas notitia criminis.
Tais resultados foram apresentados no I ETO – Encontro Técnico Operacional
das Delepats, realizado na ANP no mês de abril de 2005, gerando grandes
expectativas e até a presente data existe a cobrança por parte de vários Delegados
85
de Polícia Federal para que se proceda à expansão do sistema para outras unidades
da Federação.
Tal expansão, contudo, esbarrou na relutância dos núcleos de informática
locais em implementar o projeto sob a alegação de depender de prévia autorização
da CTI/DPF para sua efetivação.
Desta forma, atualmente exercendo a função de Administrador da Rede de
Informática da DCOR/DPF e contando com o apoio do Senhor Diretor de Combate
ao Crime Organizado, Doutor Getulio Bezerra Santos, que vislumbrou o potencial
criativo do sistema proposto e sua efetiva utilidade na área de inteligência, apresento
à comunidade policial o Projeto final, batizado como “Prometheus”.
Este trabalho de Conclusão de Curso representa, portanto, mais que um pré-
requisito para a formação do Autor no XIV Curso Especial de Polícia. Representa a
conclusão de seus esforços no sentido de contribuir para o aperfeiçoamento no uso
dos recursos de inteligência dentro do Departamento de Polícia Federal e o
alinhamento do Órgão com novas tecnologias de ponta.
O Projeto Prometheus encontra-se agora maduro, reforçado sob os aspectos
de segurança, compartimentação, centralização do banco de dados e consulta
exclusivamente via intranet/DPF, para utilização plena por parte dos analistas de
informação das Superintendências e Unidades Descentralizadas do Departamento
de Polícia Federal.
5.1 Conceito
O Projeto Prometheus subsume-se no uso do software GDS, dois plug-ins o
DNKA e o TWEAK GDS e o software INTERNET NEIGHBORHOOD Versão 5.45
instalados em uma máquina servidor auxiliar rodando o Windows Server 2003,

86
batizada como GServer.
Esta máquina encontra-se permanentemente ligada rodando o GDS e o
DNKA previamente configurados e adaptados para o uso pelo Departamento de
Polícia Federal através da criativa edição de suas interfaces gráficas.
O salto apresentado por este Projeto é a adoção da inovadora solução de se
transformar um site FTP50 em uma unidade de rede local. Isto supre a deficiência
propositalmente introduzida pela Empresa Google no GDS, em sua versão gratuita,
para pesquisar em Intranets. O software responsável por isto é o Internet
Neighborhood versão 5.45, que roda na máquina servidor em background,
monitorando o mapeamento e a transferência de dados via FTP em modo passivo.
O DNKA exerce função igualmente vital, pois é o responsável pela criação de
um web-server exercendo papel de mediador na intranet, possibilitando que as
pesquisas sejam efetuadas remotamente pelos usuários das máquinas clientes
como se localmente no servidor estivessem operando. Logicamente isto se dá de
uma forma limitada, controlada e 100% monitorada pelo Administrador da rede
informatizada onde se encontra operando o GServer.
O TWEAK GDS contribui para a tarefa de realimentação do sistema através
do agendamento automático de reindexações periodicamente controladas. A
conexão e alimentação do servidor com os dados remotos, presentes nas pastas e
diretórios dos computadores situados nas Superintendências e Unidades
descentralizadas é feita mediante a criação de um site FTP em um servidor FTP sob
controle do Núcleo de Informática local.
A criação de um site FTP é extremamente simples e nativa do sistema
operacional Windows e Linux. Ao limitarmos a conectividade deste servidor FTP ao
endereço IP da placa de rede externa (conectada ao domínio Sede.dpf.gov.br e não

50
FTP: File Transfer Protocol. Um protocolo utilizado para transferir arquivos entre dois computadores.
87
ao domínio DCOR7.dpf.gov.br) do GServer, estaremos roteando a entrada de
dados neste último de forma segura e controlada.
A sincronização das pastas FTP existentes no servidor FTP com os arquivos
existentes nos computadores pessoais ou nas pastas privativas de cada Delegacia
especializada, localizadas nos servidores das Superintendências ou Unidades
Descentralizadas, é feita através de agendamentos de back up incrementais
utilizando técnicas de shadow copy51 nativas do Windows Server.
Tal solução automatiza, portanto, o serviço necessário de sincronização de
várias pastas com aquelas que representam as Delegacias dentro do servidor FTP e
este processo além de automatizado pode ser agendado como uma tarefa do
Windows, rodando em total background e em horários noturnos, quando
praticamente inexiste atividade na rede.
5.2 DNKA
O DNKA foi desenvolvido como um plug-in do GDS. Pode ser baixado
através do endereço: http://desktop.google.com/plugins/i/dnka.html?hl=pt-BR. Seu
uso possibilita a criação de um servidor web de pesquisas, interagindo como
mediador entre o servidor do GDS local e os clientes remotos. Oferece variadas
opções de configuração e excelentes opções de segurança ao Administrador do
sistema.
É um freeware para uso pessoal ou privado, de instituições de ensino
governamentais, bibliotecas públicas e entidades sem fins lucrativos. Para as
51
Shadow copy: Técnica de cópia de alta fidelidade dos arquivos originais que permite a cópia de arquivos em
uso pelo sistema operacional.
88
demais categorias deve ser considerado como shareware,52 necessitando que se
compre a respectiva licença que custa US$39,00 (trinta e nove dólares), o
equivalente a aproximadamente R$80,00 (oitenta reais) para que seja procedido seu
registro com o fabricante, o que pode ser feito on-line acessando-se sua home page
a partir de http://www.dnka.com/register.html .
5.2.1 Aspectos legais - EULA do DNKA – Licença de uso
A licença de uso pode ser acessada a partir de:
http://dnka.com/license.html e encontra-se transcrita abaixo:
“End User License Agreement (EULA) for DNKA
NOTICE TO USERS: CAREFULLY READ THE FOLLOWING LEGAL

AGREEMENT. USE OF THE SOFTWARE PROVIDED WITH THIS
AGREEMENT (THE "SOFTWARE") CONSTITUTES YOUR ACCEPTANCE
OF THESE TERMS. IF YOU DO NOT AGREE TO THE TERMS OF THIS
AGREEMENT, DO NOT INSTALL AND/OR USE THIS SOFTWARE.
USER'S USE OF THIS SOFTWARE IS CONDITIONED UPON
COMPLIANCE BY USER WITH THE TERMS OF THIS AGREEMENT.
Licensing
The software is either licensed as "Freeware" or "Shareware", depending on

the environment it is used.
The software is "Freeware" for: personal/private use; government controlled
education institutions; public libraries; charity organizations. The term
"Freeware" means, you are allowed to use the software at no cost. It is not
necessary to purchase a license for it.
If your environment does not fit in the noted environments, you are
considered a commercial institution and the software is licensed to you as
"Shareware". The term "Shareware" means, you can test software for up to
15 days after which you must purchase a license for it or stop using the
software and remove it from your storage device(s).
Warranty
This software is provided "as is" and any express or implied warranties,
including but not limited to, the implied warranties of merchantability and
fitness for a particular purpose are disclaimed.
52
Shareware: Software distribuído como "experimente antes de comprar". Este programa disponível precisa ser
registrado para receber sua versão completa.
89
In no event shall the author(s) or DNKA Software or its contributors be liable

for any direct, indirect, incidental, special, exemplary, or consequential
damages (including, but not limited to, procurement of substitute good or
services; loss of use, data, or profits; or business interruption) however
caused and on theory of liability. Whether in contract, strict liability, or tort
(including negligence or otherwise) arising in any way out of the use of this
software, even if advised of the possibility of such damage.
Use
If the software licensed as "Shareware", then one registered copy of the

software may be installed on a single computer/workstation and used
simultaneously by multiple people.
Restrictions
You may not emulate, clone, rent, lease and sell the software. Also, you
may not modify, decompile, disassemble, otherwise reverse engineer, or
transfer the program, or any subset of the program, except to the extent and
for the express purposes authorized by applicable law. Any such
unauthorised use shall result in immediate and automatic termination of this
licence and may result in criminal or civil prosecution.
Changing the software, the documentation, the distribution form (archive) or
any other part of the software in any way is strictly prohibited.
Distribution
It is allowed to include this software on a CD/DVD-ROM for a magazine

without asking for the permission of the author(s) and/or DNKA Software,
but only if the author(s) and DNKA Software are informed about this.
Private or non-commercial distribution is allowed, providing that no fee is
charged, except for any fees necessary to cover the cost of distribution
media. No information to the author(s) or DNKA Software is needed.
Trademarks
All brand names and product names used are trademarks or trade names of
their respective holders.
All references, logos, images, names, products, software and hardware are
or may be copyrights or trademarks of their respective companies.
No infringement is intended.
Termination
The DNKA Software may terminate this EULA if you fail to comply with the
terms and conditions of this EULA. In such event, you must destroy all
copies of the software including license keys.
Contact Information
WWW: http://www.dnka.com/
E-mail: info@dnka.com”53
53
Tradução: “Termo de Contrato do Usuário Final para o uso do DNKA
AVISO AO USUÁRIO: LEIA ATENTAMENTE ESTE TERMO DE

CONTRATO. O USO DESTE PROGRAMA DEVE SER FEITO DE ACORDO
COM ESTE TERMO DE CONTRATO O QUAL É PRESUMIDO COMO
ACEITO. SE VOCÊ NÃO CONCORDA COM ESTE TERMO DE CONTRATO
NÃO INTALE OU USE ESTE PROGRAMA. A UTILIZAÇÃO PELO USUÁRIO
DESTE PROGRAMA ESTÁ CONDICIONADA À ACEITAÇÃO DOS TERMOS
DESTE CONTRATO.
90
5.2.2 Funcionalidade do DNKA
O DNKA é um plug-in que permite a criação de um servidor de consultas
centralizado, a partir do qual os usuários podem realizar consultas através de
máquinas clientes utilizando-se do navegador de internet.
Licença
O programa é licenciado tanto para uso gratuito ou comercial, dependendo das

circunstâncias em que será utilizado. Este programa é gratuito para uso pessoal, de
instituições educativas governamentais, bibliotecas públicas e entidades sem fins
lucrativos. O termo "gratuito" significa que a você está permitido o uso deste
programa sem custos. Não é necessária aquisição de licença para usá-lo. Se você
não se enquadra nas categorias listadas acima você será considerado como uma
instituição comercial e o programa será licenciado a você como pago. O termo
“pago” significa que você terá 15 (quinze) dias para testar o programa e após este
prazo é necessária a compra de uma licença ou, caso contrário, deverá ser
interrompido o uso do mesmo e convenientemente desinstalado de seu computador.
Garantia
Este programa é fornecido do modo como se apresenta e qualquer garantia expressa

ou implícita, incluindo mas não se limitando apenas aos aspectos de
comercialização ou utilidade efetiva para propósitos específicos são expressamente
renunciadas. Em hipótese nenhuma o Autor deste programa ou seus auxiliares serão
responsáveis por qualquer dano direto, indireto, acidental, especial, específico ou
conseqüente (incluindo, mas não se limitando apenas a terceiros ou procuradores e
que implique em impossibilidade do seu uso, perda de dados, cessação de lucros ou
interrupção do trabalho), mesmo que derivada teoricamente do uso do produto.
Mesmo que contratual, está excluída a responsabilidade estrita ou indireta (incluída
negligência ou culpa) derivada do uso deste programa, mesmo que não prevista a
possibilidade deste dano.
Uso
Se este programa for licenciado como “pago”, então somente uma cópia deste
programa poderá ser instalada em um único computador ou servidor, podendo ser
utilizada por diversos clientes.
Restrições
Você não pode emular, clonar, alugar ou vender este programa. Também não pode
modificar, descompilar, desassociar ou usar engenharia reversa para extrair este
programa ou qualquer de seus componentes, exceto dentro de certos limites e
para propósitos legítimos e amparados legalmente (grifo meu). Qualquer uso
em desacordo com esta autorização poderá implicar na rescisão desta licença e em
processo civil ou criminal. Modificar o funcionamento do programa, a
documentação, a forma de distribuição (arquivo eletrônico) ou qualquer parte do
programa é terminantemente proibido.
91
O acesso se dá através de um endereço de rede interno correspondente ao
IP da placa de rede previamente configurada para o uso deste servidor. A porta de
comunicação local pode ser pré-definida e no caso de não haver outro aplicativo no
servidor rodando serviços baseados na plataforma WEB, pode ser configurado para
acesso pela porta 80, utilizada para navegação normal pela internet.
Isto significa dizer que nenhuma configuração adicional é requerida nas
máquinas clientes. A consulta ao banco de dados pode ser realizada simplesmente
através do endereço IP do servidor, nos mesmos moldes do acesso à página da
intranet do CTI/DPF, que pode ser acessada digitando-se seu endereço IP:
10.61.5.12 na barra de endereços do navegador.
Neste protótipo o servidor foi definido para acesso através de seu IP:
10.1.199.2. Ao se digitar este endereço no navegador Internet Explorer da máquina
cliente chega-se à tela de login no servidor, convenientemente editada para o uso
proposto:
Distribuição
É permitido que se inclua este programa em CD/DVD-ROMs distribuídos em

revistas ou periódicos sem que se necessite a permissão do Autor para isto,
bastando que o mesmo seja informado. Distribuição particular ou não comercial
também é permitida e livre de pagamento, exceto para o custo da gravação em
qualquer tipo de mídia digital. Nenhuma informação ao Autor do programa é
necessária neste caso.
Marca Registrada
Todas as marcas e nomes de produtos usados são marcas comerciais ou nomes

registrados pelos seus respectivos proprietários. Toda referência, logotipos,
imagens, nomes, produtos, programas e equipamentos são ou podem ser marcas ou
nomes protegidos por direitos autorais. Nenhuma infração será considerada como
intencional.
Rescisão
O fabricante do DNKA pode rescindir este contrato em caso de descumprimento de

seus termos e condições. Neste caso você deve destruir qualquer cópia do programa
em seu poder, inclusive chaves de licença.
92
Ilustração 15
Após a digitação do login e senha corretas o usuário é conduzido à tela de
pesquisa propriamente dita, dentro do GDS e da mesma forma editada, contendo
referência ao uso do software GDS como plataforma de busca, em atenção ao
direito de propriedade intelectual e à EULA de uso do GDS, conforme discutido no
item 4.2.1.1.
O procedimento a partir de então é idêntico ao uso do GDS em uma máquina
local, com algumas restrições aplicadas pelo administrador e comentadas no item
4.2.4 a respeito do acesso aos hiperlinks de consulta e à opção de remoção de
resultados do índice de indexação:

93
Ilustração 16
A configuração do servidor propriamente dita é feita efetuando-se login
diretamente no servidor (IP: 127.0.0.1 – local host) ou através de clientes remotos ao
se digitar na tela de login o usuário Admin e senha pré-definida. Desta forma
aparecerá a tela de configuração do servidor, cuja interface foi parcialmente
traduzida e otimizada para a língua portuguesa pelo Autor do Projeto:

94
Ilustração 17
Navegando-se pelas abas de configuração temos como próxima opção o
“controle de IPs”. Nesta interface são acrescentados e/ou removidos os IPs das
máquinas clientes autorizadas a utilizar o sistema, através de um simples mas
eficiente firewall baseado em IPtables54 incorporado ao aplicativo:
Ilustração 18
A próxima aba permite a criação, exclusão e gerenciamento dos usuários
autorizados a pesquisar no sistema:
54
IPtable: Filtro de pacotes que tem funcionamento similar, porém menos funcional que o firewall de dados.
95
Ilustração 19
A última aba permite ao administrador realizar configurações especiais de
pesquisas, analisar relatórios de acesso, definir permissões específicas, definir
portas e proceder à reindexação parcial ou total do índice, muito embora esta última
opção deixe um pouco a desejar em termos de resultado, quando executada a partir
desta configuração:
Ilustração 20
5.3 TWEAK GDS
O TWEAK GDS foi igualmente desenvolvido como um plug-in do GDS. Pode
ser baixado a partir de: http://desktop.google.com/plugins/i/tweakgds.html?hl=pt-BR.
Foi o pioneiro em apresentar soluções de reindexação parcial ou total controlada dos
índices do GDS, tecnologia esta posteriormente incorporada de forma parcial pela
Empresa Google e lançada na última versão beta de nº. 4 do GDS.
Seu uso é necessário porque o agendamento da indexação nativa do GDS
ainda deixa muito a desejar, falhando em algumas ocasiões enquanto que este
96
aplicativo cumpre perfeitamente seu papel possibilitando inclusive o agendamento
dos sites FTP mapeados como unidade de rede, ao contrário da mensagem de erro
que ocorre quando se tenta fazer o mesmo através da configuração nativa do GDS
de forma isolada. Sem o uso deste plug-in não é possível indexar unidades de rede
mapeadas que se encontram em ambiente externo ao domínio a que pertence o
servidor.
Como já mencionado, o Autor acredita ser tal bug incluso de forma velada
pela empresa Google a fim de impedir o uso gratuito de seu software em intranets
corporativas, forçando o usuário a aderir a alguma forma de suas soluções pagas.
O plug-in é um freeware (software gratuito) para qualquer espécie de
utilização, mesmo que comercial e o Autor trocou várias mensagens de e-mail com o
Autor deste plug-in, o Doutor Nathan Evans da Podsync.com sediada nos EUA, a fim
de esclarecer dúvidas residuais a respeito das sintaxes de linha de comando mais
apropriadas para agendamento da execução do programa em modo remoto.
O software possui pequena EULA que não limita em absoluto qualquer
alteração ou forma de uso final, dispões apenas acerca da falta de garantias por
parte do Autor e pode ser acessada a partir do arquivo de texto baixado junto com a
instalação:
“License Agreement
=================
Installing and using any software written or distributed by

PodSync.com signifies acceptance of the terms and conditions of
this license.
THIS SOFTWARE IS PROVIDED "AS-IS". NO WARRANTY OF ANY

KIND IS EXPRESSED OR IMPLIED. THE AUTHOR WILL NOT BE
LIABLE FOR DATA LOSS, DAMAGES, LOSS OF PROFITS OR ANY
OTHER KIND OF LOSS WHILE USING OR MISUSING THIS
SOFTWARE.
============================================
===
97
Any suggestions, bug reports, or comments are welcome.”55
E-Mail: support@podsync.com
Website: http://www.podsync.com
O Autor do software também disponibiliza link de ajuda e suporte a título gratuito a
partir de http://podsync.com/TweakGDS_help.htm .
5.3.1 Funcionalidade do TWEAK GDS
O modo de funcionamento e sua interface são extremamente simples e
intuitivos. É preferível usar a versão mais antiga deste software, a 1.1, de apenas 46
kbytes por se afigurar mais estável em relação à automatização das funções de
agendamento de indexações. Ao executar o aplicativo é aberta a seguinte interface:
55
“Concordância com a Licença
=================
Instalar e usar este programa desenvolvido e distribuido pela

Empresa PodSync.com significa a aceitação dos termos e
condições desta licença.
ESTE PROGRAMA É DISTRIBUÍDO COMO ESTÁ. NENHUMA GARANTIA,

DE NENHUMA ESPÉCIE ESTÁ ASSEGURADA OU IMPLÍCITA. O AUTOR
NÃO PODERÁ SER RESPONSABILIZADO POR PERDA DE DADOS,
DANOS,LUCROS CESSANTES OU WQUALQUER OUTRO TIPO DE PERDA
ADVINDA DO USO OU MANUSEIO DESTE APLICATIVO.
============================================
===
Qualquer sugestão, informação sobre falhas ou comentários são
bem-vindos.”
E-Mail: support@podsync.com
Website: http://www.podsync.com
98
Ilustração 21
A partir desta tela é possível proceder-se à reindexação total ou parcial das
unidades ou pastas de rede mapeadas ou à mudança da localização do índice de
indexação por questões de segurança.
É necessário ter em mente, porém, que o aplicativo GDS tem que ser
interrompido e reiniciado para que as novas configurações entrem em vigor, o que é
facilmente disponibilizado através do link localizado na parte superior da interface.
No presente projeto estas operações foram automatizadas para fins de
otimização e serão abordadas no tópico 5.5.4 a seguir.
5.4 INTERNET NEIGHBORHOOD
Este software é uma extensão shell do windows que permite a navegação por
sites remotos de FTP, o upload e download de árvores de diretórios na íntegra, além

99
de facultar o gerenciamento de pastas e arquivos como se fosse um administrador
local.
Pode ser utilizado a partir do Windows Explorer e permite o uso de todas as
funcionalidades deste último. Possui suporte para SSL – Security Socket Layer, SSH
e senhas criptografadas, para incremento do nível de segurança nas transferências
FTP.
As transferências podem ser agendadas em horários pré-determinados, além
de permitir múltiplas transferências simultâneas com controle de banda utilizada.
A criação de um cache dos diretórios permite a navegação mesmo no caso do
site FTP encontrar-se off-line. Apresenta também a habilidade de retomada das
transferências em caso de queda da conexão e funcionalidades diversas.
Pode ser baixado a partir do site de terceiros como por exemplo:
http://72.14.209.104/search?
q=cache:OiGy2RA7rFAJ:www.tucows.com/preview/195128+internet+neighborhood&
hl=pt-BR&gl=br&ct=clnk&cd=3.
A Knowware, empresa que comercializava este trialware (software pago após
expiração do prazo concedido para teste) simplesmente fechou suas portas. Parou
de vender a licença para uso do aplicativo e de prestar suporte para o mesmo,
sugerindo aos usuários que experimentem outro software semelhante, o “WEB
Drive” e ponto final.
Isto pode ser verificado através do acesso à sua home page a partir de:
http://www.knoware.com, em total desrespeito ao direito dos usuários que adquiriram
sua licença anteriormente a 31 de março de 2006.

100
Não obstante tal fato atípico, ocorre que o software de teste continua
funcionando normalmente mesmo após a expiração do prazo de 20 (vinte) dias
estipulado para experimentação por parte dos usuários.
Por outro lado, o software sugerido “WEB Drive” deixa muito a desejar no
quesito estabilidade. Não existe comparação plausível entre os dois softwares, pois
o Internet Neighborhood v. 5.45 supera seu rival em todos os quesitos testados.
Abre-se então uma lacuna jurídica a respeito do uso do citado aplicativo para
uso corporativo, pois embora o preço da citada licença seja extremamente baixo:
US$ 39.95 (trinta e nove dólares e noventa e cinco cents), o equivalente a
aproximadamente R$ 80,00 (oitenta reais), não há como nem a quem pagar por ela.
Não obstante, a empresa ao encerrar seu serviço de suporte, no entender do
Autor e baseado em princípios básicos do direito pátrio, não poderia mais cobrar
pelo produto. A partir destes fatos prevalece a presunção juris tantum de que o uso
do citado software corre por conta e risco do usuário, equiparando-se tecnicamente,
portanto, a um freeware.
Não existem no mercado outros softwares que apresentem as mesmas
características de estabilidade, confiabilidade e segurança que este aplicativo
proporciona e em sendo assim, tecidas as devidas considerações a respeito,
entende o Autor no sentido da possibilidade plena da continuação do uso da versão
de testes no presente Projeto, devido à inexistência de qualquer preceito legal que
aponte em sentido contrário.
5.4.1 Funcionalidade do INTERNET NEIGHBORHOOD

101
Este software é composto de vários módulos. Dentre eles os mais
importantes e de utilidade efetiva são o kwSiteMgr.exe e o ndMonNT.exe,
acessados a partir das opções de acesso ao programa através dos atalhos “Internet
Neighborhood” e “Drive Monitor”. Acessando-se a primeira opção abre-se uma tela
do Microsoft Explorer com as seguintes opções:
Ilustração 22
O programa é efetivamente rico em opções de configuração. A descrição de
cada uma delas ocuparia uma porção considerável no presente trabalho. Importa
somente comentar que a configuração “default” já atende suficientemente bem às
necessidades do Projeto. O mapeamento dos sites FTP como unidade de rede
propriamente dita é feito acessando-se a opção “Drive Monitor”. Será apresentada a
seguinte tela:
102
Ilustração 23
Procede-se então à configuração dos parâmetros de entrada a ser
adicionados a partir da opção “New Site...”. No protótipo de testes foi adicionado o
site FTP da Universidade Pontifícia Católica do Estado do Rio de janeiro – ftp://
139.82.34.11, mapeado como unidade de rede “H:”
Ilustração 24
Basta que se acesse o Windows Explorer para assegurar-se que a operação
foi bem sucedida:

103
Ilustração 25
A partir de então todo o conteúdo do diretório do site, neste caso ocupando
um espaço de 100GB, estará totalmente navegável dentro do próprio servidor,
tornando possível a sua indexação por completo, nos termos propostos.
5.5 OPERACIONALIZAÇÃO – adequação às necessidades da DCOR/DPF
O sistema tal como proposto e delineado nas linhas acima se mostra capaz
de atender satisfatoriamente à necessidade de gerenciamento de informações no
âmbito da Diretoria de Combate ao Crime Organizado e quiçá do Departamento de
Polícia Federal como um todo.
A instalação de três placas de rede PCI no servidor FTP instalado no NUINF
das Superintendências garante a criação de três serviços idênticos de FTP rodando
simultaneamente em uma máquina apenas, apontando para as respectivas pastas
representativas das Delegacias especializadas.
Tais sites estão conectados, por sua vez, a três diferentes IPs criados a partir
da instalação de três placas de rede PCI no GServer, reproduzindo desta forma as
Divisões existentes na DCOR/DPF.
Isto possibilita a criação e funcionamento simultâneo de três servidores GDS

104
em uma mesma máquina sem que as informações de um possam ser acessadas
pelos outros, conforme o desejo exposto pelos Diretores das respectivas Divisões, a
saber: DFIN/DCOR, DPAT/DCOR e DARM/DCOR.
Desta forma cada Delegacia especializada existente no âmbito das diversas
DRCORs regionais participarão ativamente na formação de um banco integrado de
dados único, subordinado à respectiva Divisão em funcionamento no Edifício sede
do DPF.
Existe a possibilidade de mapeamento de todos os Estados da Federação,
tendo em vista que as letras atribuídas às unidades de rede mapeadas encontram-
se no alfabeto inglês, possuindo exatamente 26 letras. Excluindo-se a unidade C:\
por ser a unidade local, restam portanto 25 unidades a serem distribuídas por 27
Estados da Federação. Levando-se em consideração que determinados Estados
sequer possuem Delegacias Especializadas em suas Superintendências, da forma
como estão estruturadas, é possibilitada a indexação plena de toda a informação
relevante em um único servidor central.
Delegacias importantes, que apresentam conteúdo relevante podem participar
da base de dados através de técnicas de espelhamento a partir de seus servidores
de informática, em sincronia com o servidor FTP em operação nas
Superintendências a que se subordinam.
Com a estrutura montada pode-se então definir as máquinas e os analistas
autorizados a consultar o sistema. Restou definido em reunião realizada na
DCOR/DPF que somente aqueles analistas autorizados pelos respectivos chefes de
Divisão poderão acessar seu banco de dados exclusivo, versando sobre crimes
financeiros, crimes contra o patrimônio ou tráfico de armas respectivamente.
O processo encontra-se totalmente automatizado, sendo desnecessária a

105
interferência humana seja do Administrador do sistema para as atualizações
periódicas dos índices, seja do usuário que gera a informação, pois as informações
são mineradas diretamente através do seu trabalho normal e cotidiano, a partir da
criação e/ou modificação dos arquivos contidos nas pastas relacionadas às
Delegacias Especializadas componentes daquele Banco de dados específico.
Os e-mails de inteligência enviados às Divisões sediadas no Edifício sede
serão automaticamente alocados nas pastas respectivas e indexados diariamente,
deixando-se uma cópia da mensagem no servidor departamental a fim de serem
baixadas pelos demais analistas, pelos Delegados Adjuntos e pelo chefe da Divisão
correspondente.
Os demais aspectos relativos à expansão da base de dados e da
universalização do acesso serão discutidos pormenorizadamente no capítulo
dedicado à segurança do sistema, visto implicar na definição por parte das chefias a
respeito da política de informações informatizadas que vigorará a partir de agora no
âmbito da Diretoria de Combate ao Crime Organizado do Departamento de Polícia
Federal.
5.5.1 Equipamentos utilizados – Hardware – Especificações técnicas
Para a implantação do sistema proposto é necessário um único
microcomputador situado e gerenciado a partir do Edifício Sede do DPF para servir
como Web Server, além de tantos microcomputadores quantas forem as Unidades
Federativas componentes da base de dados correspondente atuando como

106
servidores FTP.
Tais servidores FTP poderiam ser instalados nos servidores já em atividade
nos NUINFs locais. Contudo ainda na fase de testes com a Superintendência
Regional de Brasília foi constatada a necessidade da instalação de um
microcomputador à parte da estrutura em funcionamento tendo em vista a carência
de recursos e de espaço em mídia digital disponível nos Servidores já em operação.
O sistema operacional apropriado ao uso proposto é o Windows Server 2000
ou 2003 Standard Edition. A opção pelo uso destes sistemas se deve à estabilidade
necessária para o gerenciamento eficaz de dezenas de conexões TCP/IP
simultâneas como resultado da consulta à base de dados, realizada por múltiplos
usuários. Apresenta também suporte ao formato NTFS, mais seguro que o FAT e à
técnica de shadow copy para back up e sincronização de dados.
Obviamente deverão ser respeitados os requisitos mínimos definidos pelo
fabricante, a Microsoft, exigidos por estes sistemas operacionais56, os quais são
reproduzidos a seguir:
56
Acesso a partir de: http://www.dewassoc.com/support/win2000/require.htm e de
http://www.microsoft.com/windowsserver2003/evaluation/sysreqs/default.mspx, respectivamente.
107
Minimum Hardware Requirements

Windows 2000 Professional
Windows 2000 Server
Windows 2000 Advanced Server
Windows 2000 Professional

133 MHz or higher Pentium-compatible CPU.
64 megabytes (MB) of RAM recommended minimum; more memory
generally improves responsiveness [4 gigabytes (GB) RAM maximum.]
2 GB hard disk with a minimum of 650 MB of free space. (Additional free
hard disk space is required if you are installing over a network.)
Windows 2000 Professional supports single and dual CPU systems.
Windows 2000 Server
256 MB of RAM recommended minimum. (128 MB minimum supported;
4 GB maximum.)
2 GB hard disk with a minimum of 1 GB of free space. (Additional free
Windows 2000 Server supports up to four CPUs on one machine.
Windows 2000 Advanced Server
256 MB of RAM recommended minimum (128 MB minimum supported;
8 GB maximum.)
2 GB hard disk with a minimum of 1 GB of free space. (Additional free
Windows 2000 Advanced Server supports up to eight CPUs on one
machine.
Note: The above minimums are those that have been published by Microsoft, and indeed the
three operating systems do function with these minimum hardware components. However,
speed and performance are key issues when determining whether your computer is up to the
task of performing with one of these operating systems.
Ilustração 26
108
Microsoft Windows Server 2003 R2 Standard Edition
Component Requirement
Computer and PC with a 133-MHz processor required; 550-MHz or faster

processor processor recommended; support for up to four processors on
one server
Memory 128 MB of RAM required; 256 MB or more recommended; 4

GB maximum
Hard disk 1.25 to 2 GB of available hard-disk space
Drive CD-ROM or DVD-ROM drive
Display VGA or hardware that supports console redirection required;

Super VGA supporting 800 x 600 or higher-resolution monitor
recommended
Ilustração 27
Como observado, não é necessária uma configuração de última geração para
o uso destes sistemas operacionais, muito embora seja recomendada uma
configuração ligeiramente superior à mínima exigida pela Microsoft para um
desempenho satisfatório.
Computadores mais antigos, equipados com processador Pentium III com
velocidade de clock a partir de 600 MHZ , 256 MB de memória RAM, placa mãe off-
board com no mínimo três slots PCI livres e um hard disk de 80 GB ou dois de 40
GB podem ser utilizados perfeitamente como servidores FTP ou Web Servers para a
finalidade proposta, permitindo uma considerável diminuição de custos.

109
A quantidade de placas de rede PCI necessárias varia de acordo com as
necessidades de compartimentação das informações gerenciadas. Contudo, este
não deve ser um fator de preocupação em relação a custos, afinal uma boa placa de
rede pode ser adquirida atualmente no mercado por valores que não ultrapassam
R$30,00 (trinta reais).
Como comentado anteriormente, para este projeto foram necessárias 06
(seis) unidades tendo em vista o gerenciamento de três sites FTP e três servidores
WEB de bancos de dados rodando na mesma máquina, separadamente um dos
outros.
5.5.3 Fluxograma de entrada de dados – alimentação – eficiência na coleta
Como visto o quesito “eficiência na coleta” é preenchido através da
automatização total do sistema. O sistema suporta a interligação de quantas
máquinas forem necessárias a fim de traduzir com fidelidade as informações
trabalhadas no âmbito do Combate ao Crime Organizado, limitada ao espaço físico
disponível nos hard disks dos servidores FTP.
Contudo isto representa um investimento de baixo custo e insignificante em
relação aos benefícios advindos em se integralizar uma base de dados contendo
milhares de informações desestruturadas e de difícil acesso. O fluxo de dados está
representado a seguir:
110
/
GSERVER DCOR7
DCOR/DPF DPAT/DPF
DARM/DPF DFIN/DPF
SUPERINTENDÊNCIAS
DRCOR/SR DELEPAT/SR
DELEARM/SR DELEFIN/SR
DELEGACIAS
COMPUTADORES SERVIDOR DE DADOS
Ilustração 28
5.5.3 Fluxograma de saida de dados – Consulta – Difusão às descentralizadas
Da mesma forma encontra-se suprido o quesito “difusão às descentralizadas”,
pois da forma em que se encontra proposto,

DCOR/DPF
o sistema faculta o acesso à pesquisa
por parte de qualquer máquina interligada ao Departamento de Polícia Federal, a

SUPERINTENDÊNC DELEGACIAS
partir de qualquer Estado
IAS da Federação, utilizando-se da intranet já existente.
ESPECIALIZADAS
GSERVER
Os usuários em missão nosDCOR/DPF
escritórios externos que se conectam aos
ESCRITÓRIOS
OUTROS
111
sistemas de consulta corporativos a partir dos aplicativos ACEX57 para banda larga e
Office dial58 para conexões discadas encontram-se da mesma forma habilitados a
proceder consultas nas bases de dados, desde que previamente autorizados pelas
chefias de Divisão para liberação de seu endereço IP no firewall do Servidor de
buscas.
Outros acessos como através de conexões VPN facultados a usuários
especiais, desde que previamente liberados pela CTI/DPF também poderão se
beneficiar deste sistema.
A integração futura com outros órgãos de Segurança pública e a cooperação
internacional ficam assim asseguradas como potencialmente possíveis, desde que
incluídas previamente na política de informações da DCOR/DPF.
DPAT/DCOR DARM/DCOR
GSERVER GSERVER
BANCO DE BANCO DE
DADOS DADOS
DPAT/DCOR DARM/DCOR
POSTO POSTO
AVANÇADO AVANÇADO
DELEPATS DE DELEARMS DE
OPERAÇÃO OPERAÇÃO
DFIN/DCOR
GSERVER
BANCO DE
DADOS
DFIN/DCOR
57
POSTO
AVANÇADO
DELEFINS DE
OPERAÇÃO
Acex: programa de computador que permite a certificação e autenticação de conexões VPN remotas através de
LANs.
58
Office dial: conexão discada disponibilizada pela Embratel que permite a certificação e autenticação de
conexões dial-up através de uma conexão externa para acesso a uma rede corporativa.
112
Ilustração 29
5.5.4 Automatização da alimentação do Banco de dados - periodicidade
No início deste capítulo foi discutida a função específica do plug-in TWEAK
GDS no Projeto, qual seja a de ser o responsável pelas tarefas de agendamento das
atualizações dos índices de arquivos disponibilizados para consulta por parte dos
usuários do sistema.
Através do uso da função agendamento de tarefas do Windows, é possível o
estabelecimento de sintaxes de linha de comando que automatizam todas as etapas
citadas no item 5.3.2.
Vamos supor que no Banco de dados geral da Divisão de Combate aos
Crimes contra o Patrimônio, a unidade de rede mapeada “Z” represente a conexão
ao site FTP relacionado à pasta da Delepat/SR/DF e a unidade de rede mapeada “Y”
corresponda à conexão ao site FTP relacionado à pasta da Delepat/SR/SP.
É estabelecido como critério que os índices de indexação devem ser
completamente atualizados diariamente, de preferência no horário noturno a fim de
aproveitar ao máximo a largura de banda da Intranet corporativa.
A sintaxe necessária seria então: “C:\tweakgds\TweakGDS.exe /all”,
agendada para ser executada diariamente a partir das 22:00h por exemplo. Diversas
formas de agendamento podem ser programadas alternando-se os dias para
atualização ou as atualizações podem ser feitas mais de uma vez ao dia,

113
dependendo da necessidade do serviço.
Da mesma forma é possível a indexação de somente um ou vários sites FTP
de uma só vez substituindo-se a sintaxe “/all” Pelas letras correspondentes às
unidades de rede que necessitam ser re-indexadas.
5.6 SEGURANÇA
A manipulação de informação sensível é sempre uma fonte de preocupação
para setores de TI corporativa, principalmente diante da evolução das técnicas de
ataques e invasões disponibilizadas atualmente.
O II Congresso Brasileiro de Tecnologia, promovido pelo CERT(Centro de
Estudos, Respostas e Tratamento de incidentes de segurança no Brasil) em
Novembro/2005, teve como um dos temas a Evolução dos Problemas de Segurança
e Formas de Proteção.
Como resultado deste encontro foi atualizada a sua cartilha, atualmente na
versão 3.0, a qual pode ser acessada a partir de http://cartilha.cert.br/conceitos/. A
partir de sua leitura podemos definir alguns critérios acerca do que seja um sistema
informatizado seguro. Segundo o Órgão, “Um computador (ou sistema
computacional) é dito seguro se este atende a três requisitos básicos relacionados
aos recursos que o compõem: confidencialidade, integridade e disponibilidade”.
“A confidencialidade diz que a informação só está disponível para aqueles
devidamente autorizados; a integridade diz que a informação não é destruída ou
corrompida e o sistema tem um desempenho correto, e a disponibilidade diz que os
serviços/recursos do sistema estão disponíveis sempre que forem necessários”.

114
Para tanto é necessário observar-se as recomendações constantes na
cartilha, as quais fazem parte da rotina de qualquer administrador de sistemas.
Interessa ao projeto a análise de alguns capítulos da referida cartilha os quais
contém aspectos relevantes para o sistema proposto: as senhas e a
responsabilidade do usuário final, abordados na parte I, as questões de privacidade
e a utilização de cookies abordados na parte III e os incidentes de segurança,
dispostos na parte VII.
Também serão abordados a política de privacidade da Empresa Google em
relação ao uso do GDS, os critérios de configuração de firewall, o controle de acesso
e restrição de usuários, relatórios de log de acessos permitidos e bloqueados,
técnicas de tunelamento SSH, transferência segura via FTP, tráfego na rede, IPs e
portas de comunicação utilizadas, a compartimentação da informação e o parecer de
técnicos do CTI/DPF e da direção da DCOR/DPF acerca do sistema proposto.
5.6.1 Senhas e Responsabilidade do Usuário
Uma boa senha deve ter pelo menos oito caracteres (letras, números e
símbolos), deve ser simples de digitar e, o mais importante, deve ser fácil de
lembrar.
O sistema proposto diferencia letras maiúsculas das minúsculas, o que já
ajuda na composição da senha. Por exemplo, "pAraleLepiPedo" e "paRalElePipEdo"
são senhas diferentes. Entretanto, são senhas fáceis de descobrir utilizando
softwares para quebra de senhas, pois não possuem números e símbolos, além de
conter muitas repetições de letras.

115
Quanto mais "bagunçada" for a senha melhor, pois mais difícil será descobri-
la. Assim, é recomendável misturar-se letras maiúsculas, minúsculas, números e
sinais de pontuação. Uma regra realmente prática e que gera boas senhas difíceis
de serem descobertas é utilizar uma frase qualquer e pegar a primeira, segunda ou
a última letra de cada palavra. Em caso de dificuldades para memorizar a senha
forte escolhida, é preferível anotá-la e guardá-la em local seguro, do que optar pelo
uso de senhas fracas.
Por questões de segurança, não é dada ao usuário a opção de alterar sua
senha de acesso de forma on-line. As senhas serão escolhidas e previamente
enviadas ao administrador do sistema via e-mail funcional o qual, por sua vez,
comunicará ao usuário, também através de seu e-mail funcional acerca da ativação
da mesma.
O login de cada usuário será seu pré-nome seguido de um ponto e das
iniciais de seus sobrenomes, obedecendo aos critérios de normatização
estabelecidos pela CTI/DPF. Portanto, o login do usuário será quase sempre
coincidente com seu endereço de e-mail funcional excluindo-se o símbolo “@” e o
sufixo departamental.
O sistema cria um log de acessos que identifica o endereço IP da máquina
cliente, o nome do usuário, a data de acesso e o conteúdo da busca. Isto permite
saber com precisão quem acessou o quê, quando e a partir de onde. Os relatórios
gerados serão enviados periodicamente aos chefes das Divisões da DCOR/DPF.
A responsabilidade do usuário na guarda de sua senha será enorme. A
prática comum de empréstimo de senhas a colegas de serviço deve ser abolida, sob
risco do usuário que assim proceder responder por violação da conduta profissional,
além das penalidades previstas no Regimento Interno do Departamento de Polícia

116
Federal.
5.6.2 O uso de cookies e a política de privacidade da GOOGLE
Cookies são pequenas informações que os sites visitados podem armazenar
no browser. Estes são utilizados pelos sites de diversas formas, tais como:
• guardar a sua identificação e senha quando você vai de uma página para
outra;
• manter listas de compras ou listas de produtos preferidos em sites de
comércio eletrônico;
• personalizar sites pessoais ou de notícias, quando você escolhe o que quer
que seja mostrado nas páginas;
• manter a lista das páginas vistas em um site, para estatística ou para retirar
as páginas que você não tem interesse dos links.
Cookies são muito utilizados para rastrear e manter as preferências de um
usuário ao navegar pela Internet. Como o método de pesquisa utilizado pelo sistema
proposto é baseado em código HTML, é necessária atenção especial a respeito das
opções de habilitações de cookies no servidor e nos clientes.
Ao acessar uma página na Internet (HTML), o navegador disponibiliza uma
série de informações, de modo que os cookies podem ser utilizados para manter
referências contendo informações sobre a máquina, hardware e sistema
operacional, softwares instalados e, em alguns casos, até o endereço de e-mail.

117
Estas informações podem ser utilizadas por alguém mal intencionado, por
exemplo, para tentar explorar uma possível vulnerabilidade no computador. Portanto
tanto no servidor de busca como nas máquinas clientes é imprescindível que seja
desabilitada totalmente a opção de recebimento e envio de cookies, exceto para
sites confiáveis, onde sejam realmente necessários.
Por exemplo: desabilitando totalmente o envio e recebimento de cookies a
máquina cliente não conseguirá acessar sites de bancos comerciais que se utilizam
de cookies para verificar a segurança da máquina que acessa suas informações. É
necessária, portanto, a habilitação dos cookies somente para estes sites como
www.bb.com.br, www.cef.gov.br, etc.
Isto pode ser feito acessando-se o menu de ferramentas do Internet explorer
– 95% dos usuários servidores do DPF o utilizam – selecionando-se a opção
ferramentas opções da internet privacidade e selecionar bloquear todos os
cookies na guia configuração. Na opção sites, é possível especificar as exceções,
independentemente da proibição total do uso de cookies.
Também existem softwares que permitem controlar o recebimento e envio de
informações entre um navegador e os sites visitados. Dentre outras funções, estes
podem permitir que cookies sejam recebidos apenas de sites específicos.
Uma outra forma de manter a privacidade ao acessar páginas HTML é utilizar
sites que permitem que anonimidade. Estes são conhecidos como anonymizers e
intermedeiam o envio e recebimento de informações entre o seu browser e o site
que se deseja visitar. Desta forma, o navegador não receberá cookies e as
informações por ele fornecidas não serão repassadas para o site visitado. Neste
caso, é importante ressaltar que é necessário certificar-se que o anonymizer
escolhido é realmente confiável.

118
Obviamente, o site www.google.com não deve constar na lista de sites
habilitados ao envio e recebimento de cookies pelo Servidor. Muito embora isso
impeça a atualização automática do mecanismo GDS, nos mesmos moldes como é
feita a atualização automática do sistema através do Windows Update da Microsoft,
tal atualização é desnecessária porque o servidor GDS estará sob os cuidados do
Administrador do domínio DCOR7, sendo o único a requerer cuidados especiais.
As máquinas clientes estão dispensadas da instalação de qualquer tipo de
software adicional para acessar o sistema de buscas e a recomendação acima é
desnecessária em relação aos usuários destes terminais.
A empresa Google dispõe de política de segurança e privacidade que podem
ser acessadas para total compreensão do mecanismo a partir dos endereços abaixo
relacionados:
• http://www.google.com/privacy.html
• http://www.google.com/privacypolicy.html#information
• http://desktop.google.com.br/pt/BR/privacypolicy.html
O servidor de busca WEB (GServer) não deve, portanto, estar conectado à
internet, salvo para o recebimento de e-mails, deve ter desabilitada a opções de
cookies, trabalhar atrás de firewall, contar com um bom sistema de antivírus
instalado e atualizado e ainda deve estar especificamente configurado para o uso
como servidor. Isto torna desnecessário tecer maiores comentários a respeito do
tema neste tópico. A problemática será abordada no próximo tópico a respeito do
uso de firewall corporativo.

119
5.6.3 Firewall - Controle de acesso e restrição de usuários – Logs e Incidentes
de segurança
Consultando a política de privacidade da Empresa Google a partir do
endereço http://www.google.com/privacy.html, citado no item anterior podemos
verificar em que circunstâncias o aplicativo GDS acessa a internet:
“Por que o Google Desktop acessa a Internet?
Você pode usar o Google Desktop estando ou não conectado à Internet.

No entanto, o Google Desktop acessa a Internet de vez em quando por
vários motivos, os quais incluem:
1. Quando você instala o Google Desktop, ele envia uma

mensagem para o Google, indicando se a instalação foi bem-sucedida
ou não. Usamos essas informações para melhorar o funcionamento do
software;
2. O Google Desktop pode entrar em contato, automaticamente,

com o Google, para ver se uma nova versão do programa está
disponível;
3. O Google Desktop acessa a Internet para obter "ícones do

Google" (ícones associados a sites individuais da web) para sites
incluídos no seu histórico da web. O Google Desktop exibe esses
ícones do Google ao lado dos resultados de pesquisa, tornando mais
fácil encontrar a página procurada;
4. Se você tiver escolhido integrar os resultados do Google

Desktop e do Google Web Search, o Google Desktop entra em contato
com o Google para determinar quais sites do Google exibirão o link
"Desktop";
5. Se você tiver a Barra lateral ou gadgets flutuantes ativados, o

Google Desktop poderá acessar a Internet para obter informações
específicas dos gadgets, como previsões do tempo, cotações de ações
e notícias;
6. Se você optar por ativar o recurso Pesquisar em todos os

computadores ou Compartilhar configurações dos gadgets, o Google
Desktop acessará a Internet para transmitir essas informações aos
outros computadores. Como parte do processo de Pesquisar em todos
120
os computadores, seus arquivos serão temporariamente armazenados

em buffer nos servidores do Google Desktop, caso os outros
computadores estejam desligados ou off-line. Para os gadgets
compartilhados, essas informações são armazenadas nos servidores
do Google Desktop;
7. Para que possamos aprimorar o Google Desktop, o programa

envia informações não pessoais, como dados sobre o desempenho e a
confiabilidade do programa para o Google. Você pode desativar esse
recurso a qualquer momento visitando a página de preferências”.
Como visto, existem brechas que devem ser sanadas. Um órgão Policial do
porte do Departamento de Polícia Federal, que lida com informações sensíveis, não
pode ficar à mercê de uma companhia estrangeira, por melhor conceituada que seja
como é o caso da Google, de forma que exista risco, por menor que seja, de que
suas informações possam ser acessadas por pessoas não autorizadas.
Para dar um ponto final a esta questão foi estipulado o uso de um firewall.
Firewall pode ser conceituado como um dispositivo constituído pela combinação de
software e hardware, utilizado para dividir e controlar o acesso entre redes de
computadores. Se alguém ou algum programa suspeito tentar se conectar a uma
máquina, um firewall bem configurado entra em ação para bloquear tentativas de
invasão, podendo barrar também o acesso a backdoors, mesmo se já estiverem
instalados no computador.
Alguns programas de firewall como é o caso do MCaffe Firewall, utilizado no
GServer, permitem analisar continuamente o conteúdo das conexões, filtrando vírus
de e-mail, cavalos de tróia e outros tipos de malware, antes mesmo que os antivírus
entrem em ação.
Os endereços IP utilizados pela Empresa Google Inc. podem ser obtidos a
partir da simples consulta à ARIN Database (Órgão regulador da Internet) acessada
a partir de http://ws.arin.net/whois. Os dados estão disponibilizados abaixo:
OrgName: Google Inc.

OrgID: GOGL
121
Address: 1600 Amphitheatre Parkway

City: Mountain View
StateProv: CA
PostalCode: 94043
Country: US
NetRange: 64.233.160.0 - 64.233.191.255

CIDR: 64.233.160.0/19
NetName: GOOGLE
NetHandle: NET-64-233-160-0-1
Parent: NET-64-0-0-0-0
NetType: Direct Allocation
NameServer: NS1.GOOGLE.COM
NameServer: NS2.GOOGLE.COM
RegDate: 2003-08-18
Updated: 2004-03-05
RTechHandle: ZG39-ARIN
RTechName: Google Inc.
RTechPhone: +1-650-318-0200
RTechEmail: arin-contact@google.com
OrgTechHandle: ZG39-ARIN
OrgTechName: Google Inc.
OrgTechPhone: +1-650-318-0200
OrgTechEmail: arin-contact@google.com
# ARIN WHOIS database, last updated 2006-09-08 19:55

# Enter ? for additional hints on searching ARIN's WHOIS database.
Portanto, a faixa de endereços que vai de 64.233.160.0 a 64.233.191.255
deve ser bloqueada no firewall do servidor em todas as portas de comunicação,
tendo em vista a tecnologia de Port Fowarding59 incorporada ao GDS.
As únicas portas locais que devem ser liberadas devem ser as de número 21,
25 e 80 e 110, bloqueando-se as demais. A 21 se presta à transmissão de dados
FTP entre o GServer e o servidor FTP localizado nas Superintendências e deve ser
configurada para permitir a comunicação somente entre os IPs envolvidos na
transação; a 25 se presta ao recebimento de e-mails institucionais; a 80 ao
funcionamento do WEB Server de pesquisa e a 110 ao envio de e-mails
institucionais.
Tais providências permitem inclusive o bloqueio em caráter definitivo do
59
Port fowarding: regra de firewall que roteia o tráfego de entrada através de uma porta para outra porta de
entrada.
122
download de arquivos ou índices por parte das máquinas clientes, em caso de falha
do IPtables do DNKA, ataque ou tentativa de invasão. Isto ocorre porque não haverá
porta alguma disponível para o atendimento da requisição remota que se preste a
este serviço.
A configuração otimizada de um firewall corporativo é um assunto complexo e
longo demais para ser tratado neste trabalho, além de ser o segredo de todo bom
administrador de rede, não devendo ser divulgado ao público. O Autor do projeto se
reserva o direito de não divulgar as configurações adotadas por questões de
segurança corporativa.
Normalmente os firewalls criam arquivos no computador, denominados
arquivos de registro de eventos (logs). Nestes arquivos são armazenadas as
tentativas de acesso não autorizado ao seu computador, para serviços que podem
ou não estar habilitados. O capítulo VII da cartilha do CERT é bem explicativo a
respeito do conceito de logs, incidentes de segurança e política de segurança
corporativas, o qual se reproduz abaixo:
“1. Incidentes de Segurança e Abusos
1.1. O que é incidente de segurança?
Um incidente de segurança pode ser definido como qualquer

evento adverso, confirmado ou sob suspeita, relacionado à segurança de
sistemas de computação ou de redes de computadores.
São exemplos de incidentes de segurança:
• tentativas de ganhar acesso não autorizado a sistemas ou dados;
• ataques de negação de serviço;
• uso ou acesso não autorizado a um sistema;
• modificações em um sistema, sem o conhecimento, instruções ou
consentimento prévio do dono do sistema;
• desrespeito à política de segurança ou à política de uso aceitável de
uma empresa ou provedor de acesso.
1.2. O que é política de segurança?
A política de segurança atribui direitos e responsabilidades às

pessoas que lidam com os recursos computacionais de uma instituição e
com as informações neles armazenados. Ela também define as atribuições
123
de cada um em relação à segurança dos recursos com os quais trabalham.

Uma política de segurança também deve prever o que pode ser feito na
rede da instituição e o que será considerado inaceitável. Tudo o que
descumprir a política de segurança pode ser considerado um incidente de
segurança.
Na política de segurança também são definidas as penalidades às quais
estão sujeitos aqueles que não cumprirem a política.
1.3. O que é política de uso aceitável (AUP)?
A política de uso aceitável (AUP, de Acceptable Use Policy) é

um documento que define como os recursos computacionais de uma
organização podem ser utilizados. Também é ela quem define os direitos e
responsabilidades dos usuários.
Os provedores de acesso a Internet normalmente deixam suas políticas de
uso aceitável disponíveis em suas páginas. Empresas costumam dar
conhecimento da política de uso aceitável no momento da contratação ou
quando o funcionário começa a utilizar os recursos computacionais da
empresa”.
Em linhas gerais, isto quer dizer que tanto o firewall corporativo como o
IPtables do DNKA criam ininterruptamente logs, tanto dos acessos autorizados como
daqueles não autorizados e que a partir de qualquer tentativa de invasão são
disponibilizados meios que possibilitam a identificação do potencial invasor ou do
usuário abusivo, para que seja aplicada a punição por parte da Administração.
Esses arquivos de log servem como matriz para a geração de relatórios de
acesso que serão enviados periodicamente às Chefias responsáveis pelos seus
respectivos banco de dados. O arquivo de log do DNKA pode ser acessado pelo
administrador do sistema a partir da aba “histórico de acesso” através da opção
“controle de acessos permitidos e bloqueados” como se vê a seguir:

124
Ilustração 30
Através da opção “blocked access” são registradas as supostas tentativas de
invasão ou a tentativa de acesso de máquinas cujo endereço IP não estão
autorizadas expressamente no IPtables do aplicativo:
Ilustração 31
Através da opção “Full Acess log” são registrados o endereço IP da máquina
cliente, o nome do usuário, a data de acesso e o conteúdo da busca. Isto permite
saber com precisão quem acessou o quê e a partir de onde como anteriormente
comentado nos tópicos anteriores:

125
Ilustração 32
No exemplo acima, é possível observar que o computador com endereço IP
127.0.0.1 – ou seja, a própria máquina GSERVER, através do usuário Admin, no dia
10 de setembro de 2006, às 10:51:05 pesquisou a respeito da palavra-chave “crime”.
Se o arquivo tivesse sido acessado seriam mostrados igualmente os
parâmetros acima além do nome do arquivo acessado e sua localização na árvore
de diretórios.
Através da opção “Trim Logs”, visualizada na ilustração nº. 30, é possível
gravar os logs em arquivos no formato txt e arquivá-los com a periodicidade exigida
pelo serviço.
Como se pode observar o sistema da forma como foi proposto prima pelo
quesito “segurança”, exigido na propositura do Tema da Monografia.
5.6.4 Transferências FTP seguras
O protocolo FTP (File Transfer Protocol) é um dos meios de se copiar
arquivos de um lugar para outro na Internet. Inclusive existe suporte até para os
sistemas Mainframe.
Para utilizar o FTP, a máquina realiza uma conexão com o servidor FTP na
porta 21 – chamada de conexão de controle. Após a conexão estabelecida, para
cada arquivo transferido é estabelecida uma nova conexão, chamada de conexão de

126
dados. Existem duas formas de se estabelecer à conexão de dados:
• O servidor inicia uma conexão utilizando a porta 20, tendo como destino uma
porta variável do seu computador (FTP Ativo).
• O seu computador pode abrir uma conexão a partir de uma porta variável com
destino outra porta variável do servidor. (FTP Passivo).
O firewall com filtro de pacotes com base no estado da conexão consegue
analisar todo o tráfego da conexão FTP, identificando qual o tipo de transferência
que será utilizada (ativa ou passiva) e quais as portas que serão utilizadas para
estabelecer a conexão.
Sendo assim, todas as vezes que o firewall identifica que uma transferência
de arquivos estará sendo realizada, é acrescentada uma entrada na tabela de
estados, permitindo que a conexão seja estabelecida. As informações ficam
armazenadas na tabela somente enquanto a transferência do arquivo é realizada.
A configuração de um site FTP é operação muito simples de ser realizada e
escolha do padrão de transferência passiva diz respeito também a questões de
segurança. Basta instalar na máquina servidor o IIS60 (Internet Information Services)
e configurar um novo site FTP a partir das opções de gerenciamento do computador.
Na sua criação serão definidos os parâmetros senha de acesso, uso de firewall,
transferências ativas ou passivas, conteúdo do site e IPtables de acesso de
endereços IP confiáveis ou proibidos.
60
IIS: (Internet Information Services) é um servidor de páginas web criado pela Microsoft para seus sistemas
operacionais para servidores.
127
5.6.5 Protocolo SSH e Criptografia – Servidor FTP Linux x Windows
SSH é a abreviatura para Shell Secure Host, representa simultaneamente um
programa de computador e um protocolo de rede que permite a conexão com outro
computador na rede, de forma a executar comandos de uma unidade remota. Possui
as mesmas funcionalidades do TELNET, com a vantagem da conexão entre o
cliente e o servidor ser criptografada.
Criptografia consiste na ciência e arte de escrever mensagens em forma
cifrada ou em código. É parte de um campo de estudos que trata das comunicações
secretas, usadas, dentre outras finalidades, para:
• autenticar a identidade de usuários;
• autenticar e proteger o sigilo de comunicações pessoais e de transações
comerciais e bancárias;
• proteger a integridade de transferências eletrônicas de fundos.
Uma mensagem codificada por um método de criptografia deve ser privada,
ou seja, somente aquele que enviou e aquele que recebeu devem ter acesso ao
conteúdo da mensagem. Além disso, uma mensagem deve poder ser assinada, ou
seja, a pessoa que a recebeu deve poder verificar se o remetente é mesmo a
pessoa que diz ser e ter a capacidade de identificar se uma mensagem pode ter sido
modificada.
Os métodos de criptografia atuais são seguros e eficientes e baseiam-se no
uso de uma ou mais chaves. A chave é uma seqüência de caracteres, que pode
conter letras, dígitos e símbolos (como uma senha), e que é convertida em um

128
número, utilizada pelos métodos de criptografia para codificar e decodificar
mensagens.
Atualmente, os métodos criptográficos podem ser subdivididos em duas
grandes categorias, de acordo com o tipo de chave utilizada: a criptografia de chave
única e a criptografia de chave pública e privada. Não cabe neste trabalho uma
discussão mais detalhada acerca do tema. É importante frisar apenas que o uso do
protocolo SSH possibilita com que se trabalhe com praticamente todos os tipos de
chaves criptográficas convencionais.
Existe, portanto, a possibilidade de utilização do protocolo SSH com os fins de
possibilitar uma conexão segura para transferências FTP utilizando-se de chaves
encriptadas. A partir de http://www.dicas-l.com.br/dicas-l/19990528.php é
apresentado um esquema para implementação de FTP seguro utilizando técnicas de
tunelamento nativas do próprio serviço SSH, o qual se reproduz abaixo:
Colaboração: Emilio Nakamura [<Emilio Nakamura@br.bosch.com>]
Existe um modo de realizar um FTP seguro utilizando o proprio SSH.
O SSH possui uma caracteristica de redirecionamento de portas, que

podemos utilizar para estabelecermos qualquer conexao segura.
Na verdade utilizaremos os dois clientes (SSH e FTP): O SSH para

estabelecermos a conexão segura com o redirecionamento de portas, e o
FTP para conectarmos a essa porta redirecionada pelo SSH.
O que temos que fazer é o seguinte:
- Estabelecer uma conexão com o servidor SSH, utilizando a característica

"Port Forwarding". Podemos escolher uma porta qualquer como, por
exemplo a 1500. Qualquer conexão a essa porta será feita de maneira
segura.
Estabelecer uma conexão com o servidor FTP na porta especificada na

conexão SSH (no caso 1500). A conexão foi feita na porta 1500, que na
verdade é um redirecionamento do SSH. O seu FTP seguro vai, portanto,
funcionar assim: a gente se conecta ao servidor SSH especificando uma
porta de redirecionamento (1500). Com o cliente FTP a gente se conecta a
essa porta (1500), de modo que a conexão é feita sob um canal seguro,
com todas as características do SSH, especialmente a criptografia. O
servidor SSH por sua vez se comunica com o servidor FTP. Como os dois
servidores estão na mesma maquina, nenhum dado passa em claro pela
rede.
129
OBS 1: Os servidores SSH e FTP devem estar na mesma maquina;
OBS 2: O servidor FTP deve permitir a transferência passiva (Passive

Transfer);
OBS 3: Eventualmente esse redirecionamento pode ser utilizado para

qualquer outro protocolo, como por exemplo o POP, para leitura segura dos
e-mails.
A partir da leitura do texto acima é possível inferir que seria talvez mais
funcional para a segurança das transferências durante a indexação que os
servidores SSH e FTP se utilizassem do sistema operacional Linux para tanto, ao
invés do Windows. Contudo já existem servidores SSH desenvolvidos para trabalhar
com sistemas operacionais Windows que pelas características adicionais
proporcionadas apresentam as mesmas facilidades de configuração e estabilidade
de funcionamento como servidor SSH que aqueles nativos do sistema Linux,
possibilitando que ambos os servidores rodem simultaneamente na mesma
máquina.
Tal problemática foi levantada pelo APF Jonathas, administrador do firewall
departamental e lotado na CTI/DPF em consulta informal e é apresentado neste
trabalho uma solução efetiva para a hipótese formulada a respeito da possibilidade
de que um usuário mal intencionado pudesse interceptar os pacotes de dados
durante a operação de indexação dos sites FTP remotos.
5.6.6 Tráfego na Rede do DPF – Portas e endereços IPs utilizados
Como visto nos tópicos anteriores, uma transferência passiva FTP implica no
uso de portas aleatórias tanto nos computadores de origem como de destino.
Contudo, ao utilizar um servidor SSH para criar uma conexão segura para tais
130
transferências a porta a ser utilizada será aquela definida pelo administrador e não
mais a 20 no remoto e 21 no cliente FTP.
Os endereços IPs utilizados pelas placas de rede de todos os servidores
envolvidos deve estar reservada dentro do servidor DHCP61 da CTI/DPF e dos
NUINFs locais a fim de evitar conflitos na rede e a prevalência das configurações
realizadas em todos os componentes do sistema. Isto basta para que o fluxo de
alimentação do sistema transcorra sem maiores problemas.
Quanto à consulta, pelo fato do servidor GDS encontrar-se operando na
mesma porta de serviços WEB, nenhuma configuração é necessária. A porta 4664
necessária para indexação dos arquivos é acessada localmente a partir do endereço
de local host: 127.0.0.1, dispensando maiores configurações. A porta 80 é liberada
por default pela CTI/DPF em toda a rede para acesso às páginas HTML da internet e
intranet. Esta porta será a mesma utilizada para acessar o banco de dados, portanto
o fluxo de dados se dará entre os endereços IPs das máquinas clientes e aqueles
definidos para o servidor WEB, os quais serão previamente reservados.
Tendo em vista que o GSERVER trabalhará tanto na Intranet do domínio
DCOR7 a fim de coletar os dados das Divisões correspondentes ao banco de dados
criado, como na intranet do domínio SEDE.DPF, estarão em jogo endereços IPs de
classes e sub-máscaras diferentes, porém nada que impeça uma perfeita
configuração do sistema.
Em relação ao uso da intranet local como elo servidor-cliente, cumpre
acrescentar que tal fato possibilita velocidades de conexão da ordem de até 500
kbps, o que somado ao fato de que as versões em cache dos arquivos ocupam
espaço 1000 vezes menor que o original, ocorrerá um acréscimo desprezível e
61
DHCP: (Dynamic Host Configuration Protocol) Protocolo de serviço TCP/IP, que oferece configuração
dinâmica com concessão de endereços IP e distribui outros parâmetros de configuração para clientes de rede.
131
imperceptível no aumento no tráfego de dados na Intranet do DPF como um todo e
apenas no período noturno, devido à atualização dos índices de arquivos.
Corroborando esta assertiva junta-se o fato de que nem todos os analistas
estarão consultando o banco de dados simultaneamente. A não utilização da internet
para as consultas implica em considerável economia de banda externa. Caso
contrário isto representaria um problema em quase a totalidade das unidades do
DPF, já que a maioria encontra-se com sua capacidade estrangulada pelo crescente
aumento na base de usuários somada à falta de investimento na infra-estrutura da
rede, acarretado pelo contingenciamento de recursos federais.
5.6.7 Compartimentação das Informações – Política de informação na
DCOR/DPF
A política de informações que impera na maioria dos setores da Polícia
Federal é a feudalista (vide item 2.7). Todos querem ter acesso à informação, porém
muitos receiam compartilhar suas informações com os demais. Na DCOR/DPF não
poderia deixar de ser diferente.
Um consenso só foi obtido a partir da divisão em três bancos de dados
distintos representando as Divisões existentes dentro da DCOR/DPF. No nosso
entender isto é contraproducente para o analista, pois o criminoso que trafica drogas
(CGPRE) também está envolvido com assalto a bancos (DPAT), negocia armas
ilegalmente (DARM) e lava dinheiro sujo (DFIN). É hipoteticamente provável que
investigações levadas a efeito por uma divisão pudessem se beneficiar do banco de
dados de outra.
132
Contudo, foi colocado por alguns membros que não seria interessante que
uma Divisão ao acessar dados contidos em outra possa vir a atrapalhar as
investigações prendendo, por exemplo, um elemento que estaria sendo monitorado
visando uma operação de maior envergadura. Realmente seria necessário um grau
de cooperação interna que em nossa observação será difícil de ser alcançada em
curto prazo.
Os gerentes de informação, ou seja, os chefes das Divisões têm seus
conceitos particulares de como conduzir suas próprias operações e não admitiriam
interferências externas cuja fonte fosse obtida em suas próprias trincheiras. Esta
discussão ideológica ainda não foi totalmente definida e estão agendadas reuniões
futuras a fim de tratar de possíveis integrações entre os bancos de dados. Em todo
caso, a palavra final será dada pelo Senhor Diretor da DCOR/DPF, Doutor Getúlio
Bezerra Santos.
5.6.8 Parecer informal da Direção da DCOR/DPF, CTI/DPF e NUINF/SR/DPF/DF
O Senhor Diretor da DCOR/DPF, Doutor Getúlio Bezerra Santos, ao ser
apresentado ao novo sistema declarou-se particularmente impressionado com a
velocidade de busca e o potencial de integração das atividades de inteligência
proporcionado pelo Projeto, dando sinal verde à sua implementação, em fase de
testes, integrado à Superintendência Regional da Polícia Federal de Brasília. O
Doutor Mauro Sposito, Coordenador de Operações de Fronteiras do DPF, presente
à demonstração, também se declarou impressionado e otimista em relação a um
possível uso do sistema para controle de Polícia Marítima, Aérea e de Fronteiras. Os

133
técnicos da CTI/DPF Senhores, Caixeta, Wesley e Jonathas, consultados
informalmente afirmaram desconhecer o princípio envolvido no sistema. Após a
explicitação do projeto concordaram com a implantação em fase de testes de
integração com o NUINF/SR/DPF por considerarem que o presente Projeto não fere
as políticas de segurança de informação adotadas pelo DPF. Consultado o Chefe
em exercício do NUINF/SR/DPF, ADM Alex, após a explicitação na íntegra do
projeto o considerou extremamente interessante e com potencial futuro,
concordando em cooperar com a implantação do presente projeto.
Como visto, o projeto está saindo, em meados de setembro de 2006, do papel
para a prática, possivelmente coincidindo o fim da fase de testes com a
apresentação do presente Trabalho de Conclusão de Curso. A apresentação e
análise dos dados serão oferecidas, portanto, perante a ilustre banca examinadora.
5.7 INTEGRAÇÃO DO PROJETO
O projeto é passível de integração com outros setores do DPF, demais
Órgãos de Segurança Pública e até em nível de cooperação internacional. Tudo
depende da política de informações que será adotada pela direção da DCOR/DPF a
respeito. O papel do projetista como técnico é somente apresentar e demonstrar a
possibilidade do uso de novas tecnologias, o seu alcance e o seu impacto sobre o
gerenciamento dos bancos de dados criados na DCOR/DPF a partir do presente
trabalho. O uso de certificados de segurança através de tokens62 ou smart cards63
62
Tokens: Tokens em computação é um segmento de texto ou símbolos que podem ser manipulados por um
“parser” (programa de computador ou parte dele que analisa a estrutura gramatical de uma entrada de dados).
63
Smart Cards: Cartão de plástico semelhante ao de crédito, com um chip que armazena informações
criptografadas.
134
poderiam ser a chave para isto no futuro. Quem sabe?
6 METODOLOGIA
A metodologia empregada consistiu na criação de um servidor protótipo de
testes no âmbito do Domínio DCOR7, denominado GServer, para a realização das
provas de conceito.
Posteriormente, foram realizados testes de indexação em sites FTP de
universidades disponíveis na Internet com o ftp://ftp.Puc-rio.br/ e ftp://ftp.coe.ufrj.br/,
da Pontifícia Universidade Católica/RJ e da Universidade Federal do Estado do Rio
de Janeiro respectivamente. Ambos os sites apresentam conteúdo de arquivos da
ordem de 100 GB de dados e sua indexação completa se deu no período de 48
horas cada.
Reindexações sucessivas e diárias foram aplicadas, verificando-se que em
menos de 2 horas estavam terminadas e que registraram com êxito eventuais
mudanças nos arquivos e árvores de diretórios.
A partir do sucesso da empreitada foram mapeadas como unidade de rede
local no GServer os sites FTP da CTI/DPF e da SR/DPF/PR, os quais permitem
logon anônimo e transferência passiva de dados.
A indexação total do site FTP da CTI/DPF, contendo 18,6 GB de dados,
acessado a partir do endereço FTP://10.61.5.12, transcorreu em um período de
tempo total de 6 horas e a indexação total do site FTP do NUINF/SR/PR, contendo
idêntico volume de dados transcorreu em 8 horas. O Autor atribui esta diferença de
tempo à maior quantidade de nós de conexão enfrentados no segundo caso.

135
As perspectivas promissoras levaram o Autor a apresentar o protótipo do
Projeto ao Ilustríssimo Senhor Diretor da DCOR/DPF, Doutor Getulio Bezerra
Santos, através de demonstração pública que reuniu os funcionários e chefes das
Divisões componentes da citada diretoria, com exceção da CGPRE.
Foi então autorizada a implementação de um servidor FTP dentro do
NUINF/SR/DPF, a fim de realizar provas práticas de indexação de arquivos
contendo informações ligadas às atividades policiais de combate ao Crime
Organizado.
Tal fase ainda não foi implantada tendo em vista a necessidade de reunião,
ainda não realizada até a presente data, entre todas as chefias envolvidas para
definição da criação de novas pastas remotas ligadas às Delegacias Especializadas
situadas na Superintendência Regional de Brasília/DF.
Isto se deve ao fato da necessidade de filtragem do conteúdo, já que muitos
servidores não estão ainda suficientemente disciplinados no hábito de remover das
pastas públicas conteúdo de interesse particular.
O Objetivo do projeto nesta fase de testes é a interligação do maior número
possível de unidades da Federação e a verificação contínua das características de
funcionalidade, utilidade e segurança do uso junto ao CTI/DPF, Chefes de Divisão
da DCOR/DPF e Chefes das Delegacias descentralizadas para o estabelecimento
dos parâmetros ideais de segurança, compartimentação e acesso.
O limite da capacidade de conexões de consulta simultâneas e o
comportamento do servidor a partir de eventual sobrecarga de requisições de
pesquisa também serão analisados com o fito de solucionar qualquer problema
técnico que surja eventualmente, em função de eventuais flutuações da intranet
departamental.
136
7 CONCLUSÃO
O Autor conclui o presente trabalho na certeza de haver convencido os
leitores, membros da banca examinadora e demais autoridades da necessidade de
unificação do grande volume de informações desestruturadas existentes no
ambiente informatizado do Departamento de Policia Federal como um todo. Acredita
também na eficácia do presente trabalho para alinhar o Departamento de Policia
Federal no uso de tecnologias de ponta e de baixo custo, a fim de promover a
inteligência do conhecimento como arma mais importante no combate ao Crime
Organizado neste País.
O Projeto Prometheus, nos moldes do proposto e através da implementação
das ferramentas de busca na técnica de mineração de dados e sua integração com
ferramentas de análise como o Analyst´s Notebook da I2”64, será certamente de
grande valia para revolucionar os métodos utilizados na análise de informações de
inteligência no futuro.
64
I2: Software comercializado pela Empresa Tempo real que abrange uma suíte de produtos destinado à análise e
manipulação de dados possibilitando o cruzamento e a disposição de forma gráfica das informações obtidas.
137
REFERÊNCIAS
BATTELE, JOHN. The Search. Portfolio, 2005, 311 p. ou, em português, A Busca.
Campus, 2005, 288 p.
BELKIN, N. J.; ODDY, R. N.; BROOKS, H. M. Ask for information retrieval. Journal
Documentation, 38, n. 2, p. 61-71, Part I, n. 3, p. 145-65, 1982. Part II.
BIO, B. F. Sistemas de informação: um enfoque gerencial. São Paulo: Atlas,

1991.183 p.
BORGES, Jorge Luis. Obras Completas. Buenos Ayres: Emecé, 1969.
BRAGA, N. O processo decisório em organizações brasileiras: comportamentos

comunicativos. Revista de Administração Pública, Rio de Janeiro, v. 22 n. 4, p.34-51,
out./dez 1988.
BRACKETT, M. H. The data warehouse challenge: taming data chaos. New York:
John Wiley & Sons, 1996.
BRANCHEAU, J. C.; WETHERBE, J. C. Key Issues in Information Systems

Management. v. 11, n. 1, p. 59-72. MIS Quarterly: Minneapolis, mar 1987.
BURCH, J. G. Jr.; STRATER, F. R. Jr. Information systems: theory and practice.

California: Hamilton publishing company, 1974, 494 p.
CAMPELLO, Bernardete Santos; CENDON, Beatriz Valadares; KREMER, Jeannette

Marguerite, org. Fontes de informação para pesquisadores e profissionais. (Coleção
Aprender). Belo Horizonte: Ed. UFMG, 2000, 319 p.
138
CHEN, Heisung et al. Internet browsing and searching: user evaluations of category
maps and concept space techniques. Journal of American Society for Information
Science, v. 49, n. 7, p. 582-603, 1998.
CHEN, M. S.; Han, J.; Yu, P. S. Data mining: an overview from a database
perspective. IEEE Transactions on Knowledge and Data Engineering, v. 8, n. 6,
1996.
COELHO Netto; J. Teixeira. Semiótica, informação e comunicação. (Coleção

Debates). São Paulo: Ed. Perspectiva, 1980. 222 p.
COMPANY'S INFORMATION SYSTEMS. Harvard Business Review, Boston, v. 67,

n. 2 mar./apr., p. 130-134, 1989.
DAHLBERG, Ingeltraut. Knowledge, organization and terminology: philosophical and

linguistic bases. International Classification, v. 19, n. 2, 1992.
DAVENPORT T. H.; HAMMER, M.; METSISTO, T. How executives can shape their.
[S.I]: [s.n.].
DAVENPORT, T. H.; ECCLES, R. G.; PRUSAK, L. Information Politics: Sloan

Management Review, v. 34, n. 1. Knoxville: Fall, 1992.
DAVIS, G. B.; OLSON, M. H. Sistemas de Información Gerencial. Bogotá: McGraw-

Hill, 1987, 718 p.
DAVIS, G. B. Management information systems: conceptual foundations, structure

and development. New York: McGraw-Hill, 1974, 404 p.
DEMO, Pedro. Metodologia científica em ciências sociais. São Paulo: Atlas, 1995.
293 p.
139
DERVIN, Brenda. Chaos, order and sense-making. Disponível em:

<http://www.mcc.ufc.br/etagi/projetobb/zendervinmit99.html>. Acessado em: 18 maio
2000.
DUPUY, Jean-Pierre. Nas origens das ciências cognitivas. Trad. de Aux origines des
sciences cognitives. São Paulo: Ed. UNESP, 1996. 228 p.
ECO, Umberto. Os limites da interpretação. (Coleção Estudos). São Paulo:

Perspectiva, 1995. 315 p.
ENDRES-NIGGEMEYER, Brigitte; NEUGEBAUER, Elisabeth. Professional

Summarizing: no cognitive simulation without observation. Journal of American
Society for Information Science, v. 49, n. 6, 1998.
EPSTEIN, Isaac. Cibernética. São Paulo: Ed. Ática, 1986, 88 p.
FAYYAD, U.M.; Piatetsky-Shapiro, G.; Smyth, P. Advances in knowledge discovery

& datamining. Chapter 1: from data mining to knowledge discovery: an overview.
AAAI/MIT, 1996a.
FOSKETT, D. J. Informática. In Ciência da informação ou informática? Rio de

Janeiro: Calunga, 1980.
FREITAS H. & KLADIS C. M. Da informação à política informacional das

organizações: um quadro conceitual, v. 29, n. 3, jun./set. São Paulo: RAP, 1995.
FREITAS, H. M. R.; KLADIS, C. M. Dos Sistemas de Informações (SI) aos Sistemas

de Apoio à Decisão. SAD: [s.n.], in prelo, [s.d.]
FREITAS, H. M. R.; KLADIS, C. M. O gerente nas organizações: funções, limitações

e estilos decisórios. [S.I.], in prelo, [s.d.]
FREITAS, H. M. R.; KLADIS, C. M. O processo decisório: modelos e dificuldades.

[S.I.], in prelo, [s.d.]
140
FREITAS, H. M. R. A Informação como Ferramenta Gerencial. Porto Alegre: Ortiz,

1993, 355 p.
FURLAN, J. D. Como elaborar e implementar o planejamento estratégico de

sistemas de informação. São Paulo: Makron, McGraw-Hill, 1991, 206 p.
GARMAN, Nancy. Meta search engines. Online, v. 23, n. 3, maio/jun. 1999.
GOOGLE: como usar o Google. Disponível em :

<http://www.google.com/mu/pt/why_use.htm>. Acessado em: 2 set. 2006.
GORRY, G. A.; MORTON, S. Framework for Management Information Systems,

Sloan management Review, Knoxville: Fall, v. 13, n. 1, 1971.
GREISDORF, Howard. Relevance: an interdisciplinary and information science

perspective (Special issue on Information Science Research). Informing Science, v.
3, n. 2, 2000.
HAHN, Trudi Bellardo. Text retrieval online: historical perspective on Web Search
Engines. Bulletin of the American Society for Information Science, v. 24, n. 4 ,7-10,
abr./maio, 1998.
HOBBS, Jerry R.; STICKEL, Mark E. Interpretation as abduction. Artificial

Intelligence, v. 63, 1993.
HOCK, Randolph. Web search engines: features and commands. Online, v. 23, n.3,
maio/jun., 1999.
HUTCHINS, Edward. Cognitive artifacts. Disponível em:

<http://www.mitpress.mit.edu/MITECS/work/htchins_r.html>. Acessado em: 2 set.
2006.
INGERSEN, Peter. Cognitive perspectives of information science retrieval

interaction: elements of a cognitive IR theory. Journal of Documentation, v. 52, n. 1,
p. 3-50, mar. 1996.
141
KENDALL, K. E; KENDALL, J. E. Análisis y Diseño de Sistemas. Ciudad del México:

Prentice-Hall, 1991, 881 p.
KIMMEL, Stacey. WWW search tools in reference services. The reference librarian,
v. 57, p. 5-20, 1997.
KINI, R. B. Strategic information systems: a misunderstood concept? Information
Systems Management, Boston: Fall, v. 10, n. 4, p. 42-45, 1993.
KIRRIEMUIR, John et al. Cross-searching subject gateways: the query routine and
forward knowledge approach. D-Lib Magazine, jan. 1988. Disponível em:
<http://www.dlib.org/january98/01kirreiemuir1/html>. Acessado em 3 set. 2006.
KOTTER, J. P. The General Managers. New York: Free Press, 1982a, 221 p.
KOTTER, J. P. What effective general managers really do. Harvard Business

Review, v. 60, n. 6, p.156-167, nov./dez. Boston: [s.n.], 1982b.
KUGLER, J. L. C.; FERNANDES, A. A. Planejamento e Controle de Sistemas de

Informação. Rio de Janeiro: LTC, 1984. 81p.
LANCASTER, F. W. Indexação e resumos: teoria e prática. Trad. de Indexing and

abstraction in theory and practice. Brasília: Briquet de Lemos, 1993, 347 p.
LANGRIDGE, Derek. Classificação: uma abordagem para estudantes de

biblioteconomia. Rio de Janeiro: Interciência, 1977.
LE COADIC, Yves-François. A Ciência da Informação. Brasília: Briquet de

Lemos/Livros, 1996. 119 p.
LÉVY, Pierre. As tecnologias da inteligência: o futuro do pensamento na era da

informática. (Coleção Trans). Rio de Janeiro: Ed. 34, 1993, 205 p.
142
LIMA, Cynthia Moreira. O que é a Internet e como utilizá-la para pesquisa?

Disponível em: <http://www.elo.com.br/~cynthia/interpesq.htm. Acessado em 31 ago.
2006.
MARTIN, J. Engenharia da Informação. Rio de Janeiro: Campus, 1991, 196 p.
MAUDUIT, J. A. Quarenta mil anos de arte moderna. Belo Horizonte: Itatiaia, 1964.
271 p.
MEDEIROS, Norm. XML and the resource description framework: the great web
hope. ONLINE, set. 2000. Disponível em:
<http://www.onlinemc.com/onlinemag/OL2000/mederios89.html>. Acessado em: 31
ago. 2006.
MENDES, C. D. Informática e Competitividade da Empresa. Anais do XX Congresso.

[S.I.]: [s.n.], [s.d.].
MILSTED, Jessica; FELDMAN, Susan. Metadata: cataloging by any other name.

ONLINE, jan. 1999. Disponível em:
<http://www.online.com/onlinemag/Ol1999/milstead1.html>. Acessado em: 30 ago.
2006.
MINTZBERG, H. The manager's job: folclore and fact. Harvard Business Review,
Boston, v. 54, n. 4, p. 49-61, jul./ago. 1975.
MURDICK, R. G.; MUNSON, J. C. Sistemas de Información Administrativa. Ciudad

del México: [s.n.], [s.d.].
REVISTA NACIONAL DE INFORMÁTICA. SUCESU: São Paulo, set. 1987.
NICHOLS, G. E. On the Nature of Management Information. Management

Accounting, v. 15, p. 9-13, abr. 1969.
OLIVEIRA, A. C. M. da C.; GRAJEW, J. O enfoque do valor adicionado: informática

e aumento de competitividade. SUCESU. In XX CONGRESSO NACIONAL DE
INFORMÁTICA, 1987.
143
Orlandi, Eni P. Discurso e leitura. Campinas: Ed. UNICAMP, 1993.
OUTLET, Paul. Traité de documentation; le livre sur le livre, theorie ét pratique.

Bruselles. Belgiun: Ed. Mundaneun, 1934.
PEREGRINO, Hélio. Édipo e a paixão. In: Os sentidos da paixão. (Ciclo de debates).
Rio de Janeiro, São Paulo: FUNARTE, Ministério da Cultura, 1986.
PIATETSKY-SHAPIRO; G. & SMYTH, P. Advances in knowledge discovery & data

mining. Chapter 1: From data mining to knowledge discovery: an overview.
Knowledge Discovery and Data Mining: Towards a Unifying Framework. AAI/MIT,
1996a.
PIERCE, Charles S. Semiótica. São Paulo: Perspectiva, 1977, 337 p.
PORTER, M. E.; MILLAR, V. E. How information gives you competitive advantage,

Harvard Business Review, Boston, v. 63, n. 4, p. 149-160, jul./ago. 1985.
POULTER, Alan. The design of World Wide Web search engines: a critical review.
Program, v. 31, n. 2, p. 131-145, abr. 1997.
Prentice-Hall Hispano Americana. [S.I.]: [s.n.], 1988. 723 p.
REALE, Giovanni; ALTISSERI, Dario. História da filosofia: do Romantismo aos

nossos dias. (Coleção Filosofia). São Paulo: Paulos, 1991.
REDIF. Disponível em: <http://www.openarchives.org/>. Acessado em: 2 set. 2006.
REVISTA EXAME, Feiras que valem ouro, ed. 548, a. 26, n. 1, jan. 1994.
ROBINS, David. Interactive information retrieval: context and basic notions. (Special
issue on Information Science Research). Informing Science, v. 3, n. 2, 2000.
144
SANTAELLA, Lucia; NOTH, Winfried. Imagem, cognição, semiótica, mídia. São

Paulo: Iluminuras, 1998. 224 p.
SARACEVIC, T.; Kantor, P. A study of information seeking and retrieving. Journal of

American Society for Information Science, v.39, n.3, part I, p.161-176; part II, p.177-
196; part III, p.197-216, maio 1988.
SARACEVIC. T. Introduction to Information Science. New York: Bowker, 1970.
SCHWARTZ, Candy. Web search engines. Journal of the American Society for
Information Science, v. 49, n. 11, p. 973-982, 1998.
SHERMAN, Chris. The future of Web search. Online, v. 23, n. 3, p. 54-61, maio/jun.
1999.
SNEIDERMAN, Ben. Clarifying search: a user-interface framework for text searches.

Dlib Magazine, jan. 1997. Disponbível em:
<http://www.dlib.org/dlib/january97/retrieval/01sneiderman.html>. Acessado em 30
ago. 2006.
SPERBER, Dan; Hirschifield, Lawrence. Introduction: culture, cognition and

evolution. Disponível em: <http://mitpress.mit.edu/MITECS/cultureintro_r.html>.
Acessado em: 27 ago. 2006.
SULLIVAN, Danny (Ed.). Search engine watch: tips about Internet search engine.
Disponível em: <http://www.searchenginewatch.com/>. Acessado em 27 ago. 2006.
SULLIVAN, Danny. Crawling under the hood: an update on search engine

technology, Online, v. 23, n. 3, p. 30-38. Maio/jun. 1999.
TOFLER, A. A Empresa Flexível. Record: Rio de Janeiro, 1985, 244 p.
TORRES, N. A. Planejamento de Informática na Empresa. São Paulo: Atlas, 1991,

218 p.
145
TURBOPROLOG: The natural language of artificial intelligence. California: Borland

International, 1990.
VIOLI, Patrizia. Semiotics and cognition. Disponível em:

<http://mitpress.mit.edu/MITECS/work/violi_r.html>. Acessado em: 2 set. 2006.
WANG, Peiling; SORGEL, Dagobert. A cognitive model of document use during a

research projet. Study I. Document selection. Journal of American Society for
Information Science, v. 49, n. 2, p. 115-135, 1998.
WEIBEL, Stuart. Metadata: the foundations of resource description. D-Lib Magazine,

jul. 1995. Disponível em: <http://www.dlib.org/dlib/July95/07weibel.html>.
WILSON, T. D. Human information behavior. Informing Science, v. 3, n. 2, p. 49-55,

2000.

Monografia Pronta 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Monografia Pronta 1

Uploaded by

Copyright:

Available Formats

DEPARTAMENTO DE POLÍCIA FEDERAL

MARCELO DE MELO PASSOS

O GERENCIAMENTO DA INFORMAÇÃO NA DCOR/DPF:

Segurança, eficiência na coleta, compilação e difusão das

informações às unidades descentralizadas.

BRASÍLIA/DF – OUTUBRO 2006

O gerenciamento da informação na DCOR/DPF:

Segurança, eficiência na coleta, compilação e difusão das

informações às unidades descentralizadas.

Trabalho de Conclusão de Curso apresentado à

BRASÍLIA/DF – OUTUBRO 2006

O gerenciamento da informação na DCOR/DPF:

Segurança, eficiência na coleta, compilação e difusão das

informações às unidades descentralizadas.

Trabalho de Conclusão de Curso apresentado

Agradeço ao Diretor de Combate ao Crime

você pode apenas ajudá-lo a encontrar a

resposta dentro dele mesmo.”

O presente trabalho tem como objetivo analisar a necessidade do

Palavras-chave: Gerenciamento de informações. Obtenção de conhecimento a

Keywords: Information management. Knowledge discovery in databases. Search

LISTA DE ABREVIATURAS E SIGLAS

CGPRE – Coordenação Geral de Combate a Entorpecentes

CTI/DPF – Centro de Tecnologia da Informação do Departamento de Polícia Federal.

DARM/DCOR – Divisão de Combate ao Crime de Tráfico de armas e munições.

DCOR/DPF - Diretoria de Combate ao Crime Organizado do Departamento de Polícia

DCOR7 – Nome do domínio de informática criado na Diretoria de Combate ao Crime

Organizado (Dcor7. Dpf.gov.br).

DFIN/DCOR – Divisão de Combate aos Crimes Financeiros.

DPAT/DCOR – Divisão de Combate aos Crimes contra o Patrimônio.

DPF – Departamento de Polícia Federal.

DRCOR – Diretoria Regional de Combate ao Crime Organizado

NUINF – Núcleo de Informática.

SR/DPF/PR – Superintendência de Polícia Federal do Estado do Paraná

Como castigo Zeus1ordenou que Vulcano2 o acorrentasse a um rochedo no cimo do

que, sendo Prometheus imortal, voltava a se regenerar. Prometheus representa a

busca de conhecimento e de compartilhá-lo, fogo este guardado por seres maiores

que não permitem tal difusão.

Assim como Prometheus, o presente Projeto, assim batizado por guardar

estreita correlação de propósitos, visa revolucionar o conceito de gerenciamento de

informações, ampliando o conhecimento e seu compartilhamento entre os Policiais

Federais da área de inteligência, visando à formação de um banco de dados

unificado entre todos os Estados da Federação, contendo milhões de informações e

passível de ser implementado e entrar em funcionamento pleno em período inferior a

Da mesma forma que Prometheus enfrentou a oposição dos deuses para

alcançar seu objetivo, reconhece-se que o “novo” e o “revolucionário” sempre

Autor, no presente trabalho, irá analisar minuciosamente o tema proposto acerca do

gerenciamento de informações, o uso da informática para tal finalidade, a extração

de conhecimento a partir de bases de dados e toda a problemática pertinente.

Defenderá também com afinco a validade da solução proposta, a fim de não

merecer destino semelhante ao sofrido por seu ilustre e mitológico patrono.

A idéia central reside na escolha do método ideal a ser utilizado em nível

departamental para gerenciar as informações armazenadas e circulantes no âmbito

da Diretoria de Combate ao Crime Organizado, levando-se em conta os aspectos de

segurança, eficiência na coleta, compilação e difusão destas informações às

das informações no âmbito da citada Diretoria e suas Divisões e o Autor,

Administrador da Rede de Informática local, tem se esforçado na implementação de

soluções nesse sentido. Com a implantação da Rede de informática com Domínio3

autônomo em relação ao modelo adotado pela Administração do Edifício sede do

Departamento de Polícia Federal, houve ganho em segurança, velocidade na

transmissão de dados e independência na gestão de softwares utilizados em rede. A

implantação de software OCR4 de última geração, gerenciado a partir do Servidor

Central, possibilitou a digitalização de todo o tipo de informação impressa a partir de