Artigo Webmining

MeiosdebuscanaDeepWeb
MauricioN.Ferreira
1
,MiltonC.Zonta
1
1
InstitutoFederalCatarinense(IFC)
EspecializaoemDesenvolvimentoWeb
89.560000VideiraSCBrazil
manfe01@gmail.com,pithiramone@gmail.com
Abstract. The Deep Web is part of the internet where there are most of the
contents of the internet, but the type in which it was developed or published on
the World Wide Web (WWW), makes the traditional search engines can not
index of their contents. More specific search engines are required to obtain
results.
Resumo. A Deep Web ou Web Profunda a parte da internet onde se
encontram a maior parte do contedo da internet, porm a forma no qual foi
desenvolvida ou publicada na World Wide Web (WWW), faz com que os
motores de buscas tradicionais no consigam fazer a indexao de seus
contedos. Mecanismos de buscas mais especficos so necessrios para obter
resultadosesperados.
1.BuscanaInternet
EmumtextodeDannySullivaneditordasearchEngineWatch.com[Price,2007p16],
Sullivancomentaqueosmotoresdebuscatornaramsepblicosnomeadodadcadade90e
empoucosanos,elessetornarampartesdodiaadiadenossasvidas.Tambmcitaqueem
2000umapesquisamostravaquedaspessoasusavamumbuscadorpararealizarsuas
consultassobreasinformaesmaisrelevantes.
A partir de ento comeou a surgir uma grande quantidade de sites utilizando
linguagens de programaes que forneciam a gerao de contedos dinmicos, dificultando
aos buscadores encontrar e manter dados relevantes sobre estes sites, surgindo alguns
contedosescondidos.
Houve e ainda h sites que foram feitos em linguagens fora do padro usado hoje em
dia (HTML) o que prejudica os buscadores a indexarem contedos desses sites e h tambm
muitos sites que so criados, porm por algum motivo, no alertam os buscadores da
existncia do mesmo fazendo que os buscadores deixem de saber da existncia, fazendo com
quenoapareamnosresultadosdepesquisa.
Tambm existem muitos sites que necessitam que seja criado um usurio para poder
ser visto o contedo existente, dificultando ainda mais que buscadores cheguem a esses dados
e algumas vezes proprietrios de websites simplesmente no querem que suas informaes
sejam encontradas e usam tecnologias para barrar a busca de motores de busca surgindo
comissoaHiddenWeboutambmconhecidaporDeepWeb.
2.SurfaceWeb(WebSuperficial)xDeepWeb(WebProfunda)
Amaiorpartedossitesqueacessamosduranteodiaadiasonaverdadeapartesuperficial
daweb,ondeosbuscadorestemacessoenosmostramcontedoscommaiorfacilidade.
A procura na Internet hoje pode ser comparada a uma navegao pela superfcie
(surface) de um oceano, sendo que uma grande quantidade de contedos podem ser
rastreados pelos buscadores, mas h muito mais contedo interessante abaixo dessa superfcie
e,portanto,foradoalcancedosbuscadores.
A maioria das informaes da Web esto muito abaixo da superfcie navegvel pelos
internautas, mesmo usando buscadores, h sites que so gerados dinmicamente, e que os
motores de busca padro no podem encontrar ou ficam desatualizados pela grande
quantidade de contedo gerado em um site dinmico. Motores de busca tradicionais no
conseguem ver ou recuperar o contedo na Deep Web, isso porque grande maioria das
pginas no existem at que sejam acessadas e geradas dinmicamente conforme o acesso a
umaURLespecfica.ADeepWebestaumamagnitudemaior,abaixodasuperfcie.
Na Deep Web a parte onde os buscadores com os mtodos tradicionais de
indexao no conseguem reconhecer os contedos por estarem mal estruturados ou ainda
sendo exibidos de forma diferente do padro utilizado para desenvolvimento de websites.
[BrightPlanet, 2012] comenta que em estimativas recentes fala que a Deep Web est em torno
de4.0005.000vezesmaiorqueaSurfaceWeb.
3.EntendendoosBuscadoresTradicionais
A Internet que vemos quando estamos navegando, pesquisando por sites em buscadores
tradicionais como Google, Yahoo, Ask e Bing, estes fazem a indexao dos contedos
utilizandocrawlers,spiderserobots.
1. Web crawlers, Web indexadores ou simplesmente crawlers so os "olheiros" para os

motores de busca, com a nica misso de encontrar e salvar as pginas na Web e
envialas para os indexadores do mecanismo de busca. Na realidade um crawler
funciona como o seu navegador Web, enviando uma solicitao para um servidor
Web, baixando a pgina inteira(todo seu cdigo fonte), para enviar a um motor de
busca. Crawlers, buscam pginas muito mais rapidamente do que voc imaginar do
que usando um navegador normal. Na verdade a maioria dos rastreadores da Web
pode solicitar centenas ou mesmo milhares de pginas, simultaneamente, a maioria dos
rastreadores so programados para espalhar seus requisies para diferentes pginas
ediferentessitesaomesmotempo.
2. Spiders em portugus aranhas seguem os links de uma pgina para outra e de um
local para outro. Essa a principal razo pela qual links apontando para seu site so
to importantes. Obtendo links para seu site a partir de outros sites far com que o
mecanismo de busca ter mais oportunidades para encontrar e reindexar contedo do
seu site. Quanto mais que encontrar links para seu site, mais vezes eles vo parar e
visitar. Isto tem sido verdade desde o incio do uso de spiders no mecanismos de
busca. Nos ltimos anos houve uma ateno especial aos links relacionados com
outros sites. Isso porque os buscadores tradicionais falaram que o nmero e a
qualidade dos links relacionados para/com o seu site ir impactar diretamente na sua
classificaonosresultadosdebusca.
3. Robots.txt quando um crawler visita seu site para fazer o download do contedo do
site, ele procura por um arquivo especifico chamado robots.txt, neste arquivo de texto
inserido todos os links e buscadores que podem ser acessados e quais no devem
ser por conter contedos que voc no quer que seja indexado nos buscadores.
Comoarquivoszip,imagensdolayoutdositeedocumentosimportantes.
Muitas vezes pela m configurao de um servidor os arquivos como o robots.txt,

esto sendo bloqueados pelo servidor dificultando uma indexao eficaz, pelos motores de
busca.
Depois de indexado os contedos nos servidores os usurios comeam a ter os
resultados conforme suas consultas em seus buscadores, na imagem abaixo mostra como o
googlefuncionaquandoumusuriobuscaporcontedos:
Figura1."Comoogoogleprocessaumaconsulta"
Nafigura1mostraqueousurioenviaumaconsultaparaoServidorWeb,respectivamente
enviadoparaosservidoresindexadoresquebuscamemumaespciedesumrioebuscamem
qualpginasseencontramaspalavrasquecombinacomumtermodebuscaparticular.
Posteriormenteaconsultaviajaparaoservidordedocumentos,queatualmente
retornarosdocumentos.Trechossogeradosparadescrevercadaresultadodebusca.
Assim,osresultadosdabuscasoretornadosparaousurioemumafraodesegundos.
4.PorquebuscadorestradicionaisdesconhecemaDeepWeb
Na web o mediador para transferncia e visualizao de dados na internet o Texto, mais
especificamente Hipertexto, a maioria das pginas na internet so feitas usando (HTML
Hypertext Markup Language) ou Linguagem de Marcao de Hipertexto, por serem simples,
cada pgina separada por tags de cabealho e corpo da pgina separando o que
descrio da pgina do que cdigo fonte das informaes, facilitando os buscadores
indexaremseuscontedos.
O problema surge quando algumas pginas no utilizam padres de desenvolvimento
ou ainda no usam HTML para gerar suas pginas, dificultando ainda mais os crawlers e
spidersdefazeremseutrabalho.
Indexar contedos na Internet custam dinheiro e tempo, quando existem milhes de
pginas e muitas so desenvolvidas de formas que dificultam as buscas nas mesmas, acabam
demorando mais tempo ou ainda no so indexadas, aumentando ainda mais as pginas que
existemnaDeepWeb.
Outra forma que ocorre por existir muitas pginas invisveis para buscadores so por
que elas so geradas dinmicamente por algumas clausulas que so configuradas pelos
usurios que navegam no site e quando os buscadores tentam indexar essas pginas elas no
sabem quais foram os passos que os usurios comuns normalmente fazem ou a quantidade de
opes que podem existir para gerar uma pgina, isso muito comum em web sites de
comrcio eletrnicos (ecommerces) onde so geradas muitas pginas filtradas por preo,
categoria,qualidade,configuraes,coresentreoutros.
Hoje em dia ainda com as redes sociais onde milhares de contedos so gerados
diriamentemuitasvezesacabamficandoforadosbuscadorestradicionais.
5.FormasdepesquisasnaDeepWeb
Existem duas maneiras bsicas para pesquisar na Deep Web. [Wright, 2008] fala que
podemos usar metforas da pescaria para descrever as duas maneiras, estas formas podem
serdescritascomodepescariadearrastoepescariadefisga.
A pescaria de arrasto, tem como objetivo lanar redes para ser realizado arrastes e
posteriormente trazendo as redes para a superfcie para recolhimento do que foi encontrado,
esta uma tcnica de fora bruta embora deselegante, muitas vezes produz resultados
abundantes.
Figura2.ArrastonaSurfaceWeb
A pescaria tradicional usando anzis para fisgar, ao contrrio contrrio da pescaria de
arrasto, exige mais habilidade, os pescadores lanam suas linhas com tcnicas precisas em
locais cuidadosamente escolhidos e com iscas especificas. uma arte difcil de dominar, mas
quandofunciona,elepodeproduzirresultadosmaissatisfatrios.
Da mesmo forma que existem crawlers nos buscadores tradicionais na Deep Web no
seria diferente, porm os crawlers tradicionais so do mtodo "Pescaria de Arrasto" onde s
conseguem atingir at a um certo ponto, pois o que seus recursos possibilitam atingir, em
contra partida os crawlers especializados focam em recuperar dados especficos de uma
determinada rea do conhecimento usando seus recursos somente para isso, esse mtodo
seriaapescariatradicionalondeasbuscassofocadaserecuperamdadosmaisconsistentes.
Figura3.PesquisandonaDeepWebcomummecanismodebuscaespecifico
Existem muitos sites que fornecem buscas na deep web para pesquisar na rea da
sade, governo, engenharias, cientifica, Basu (2010) listou em seu site 10 motores de buscas
especializadosnaDeepWeb:
Infominehttp://infomine.ucr.edu/
TheWWWVirtualLibraryhttp://vlib.org/
Intutehttp://www.intute.ac.uk/
CompletePlanethttp://aip.completeplanet.com/
Infopleasehttp://www.infoplease.com/index.html
DeepPeephttp://www.deeppeep.org/
IncyWincyhttp://www.incywincy.com/
DeepWebTechhttp://www.deepwebtech.com/
Scirushttp://www.scirus.com/srsapp/
TechXtrahttp://www.techxtra.ac.uk/index.html
6.Concluso
Pessoas que buscam informaes srias na Internet, no podem mais evitar a importncia ou a
qualidade da informao existente na Deep Web. Mas a Deep Web apenas um
comprovante da existncia da informao total disponvel na Internet. Com novas pesquisas e
tecnologias possivelmente possam abranger a web completa. Buscas especializadas algum
assunto o nico meio de integrar a Deep Web com a Surface Web, e com o grande
crescimento de servios e motores de buscas especializados iro trazer para a Surface Web
os contedos da Deep Web, mais organizados tornando de facil acesso a grande maioria dos
usuriosdaInternet.
Referncias
BrightPlanet.(2012)DeepWebAPrimer,
http://www.brightplanet.com/deepwebuniversity/deepwebaprimer/,Junho.
Riordon,R.James.(2007)Thedarknet,LuluInc.EstadosUnidos
Wright,Alex(2008)SearchingtheDeepWeb,
http://people.cs.kuleuven.be/~bettina.berendt/teaching/2010112ndsemester/ctdb/p14wri
ght.pdf,Julho.
Price,GaryeSherman,Chris.(2007)"TheInvisibleWeb:UncoveringInformationSources
SearchEnginesCan'tSee",CyberAgeBooks.EstadosUnidos.
Bergholz,A.Chidlovskii,B.(2003)"CrawlingtheHiddenWeb",ProceedingsoftheFourth
InternationalConferenceonWebInformationSystemsEngineering,WISE,Italy.
GoogleInc.(2012)"GoogleWorks",http://www.googleguide.com/google_works.html,Julho.
Basy,S.(2010)"10SearchEnginestoExploretheInvisibleWeb",
http://www.makeuseof.com/tag/10searchenginesexploredeepinvisibleweb/,Julho.
Bergman,MichaelK.(2001)"WhitePaper:TheDeepWeb:SurfacingHiddenValue",
http://quod.lib.umich.edu/cgi/t/text/textidx?c=jepview=textrgn=mainidno=3336451.0007
.104,Julho.

Artigo Webmining

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Artigo Webmining

Uploaded by

Copyright:

Available Formats

MeiosdebuscanaDeepWeb

1. Web crawlers, Web indexadores ou simplesmente crawlers so os "olheiros" para os

2. Spiders em portugus aranhas seguem os links de uma pgina para outra e de um

Muitas vezes pela m configurao de um servidor os arquivos como o robots.txt,

You might also like