You are on page 1of 37

Estrategias y mecanismos de bsqueda en la web invisible

4/27/2010

Ing. Rodrigo Leiva Diaz

Resumen
Se denomina web invisible o profunda a la informacin que no puede recuperarse con los mecanismos de bsqueda comunes. Estos mecanismos tratan de abarcar toda la web, pero se calcula que los mayores motores de bsqueda alcanzan a indizar slo entre un tercio y la mitad de los documentos disponibles. La web invisible no slo es de mayor tamao que la web visible o superficial sino que crece a mayor velocidad. Asimismo, mucha informacin disponible en la web profunda, como la que se encuentra en bases de datos, tiene un alto valor potencial para el usuario.

4/27/2010

Ing. Rodrigo Leiva Diaz

El trmino web invisible fue utilizado por primera vez por la Dra. Jill Ellsworth para denominar la informacin que resultaba invisible para las maquinarias de bsqueda convencionales en la web (Ellsworth, 1995).

Un buscador es un sitio web cuyo propsito principal consiste en que el pblico pueda encontrar informacin

4/27/2010

Ing. Rodrigo Leiva Diaz

Mecanismos de bsqueda en la web


Buscadores, http://www.scirus.com/

Meta buscadores http://www.iboogie.tv/ http://www.ixquick.com/

Directorios, http://webfile.com/ http://www.rdn.ac.uk/

Guas http://www.libraryspot.com/ http://www.about.com/

Software especializado Copernic

Motores avanzados http://brightplanet.com/news/dqm2.asp http://www.quigo.com/feedpoint.htm


4/27/2010 Ing. Rodrigo Leiva Diaz 4

Estrategias de bsqueda en la web

Elaborar y mantener una lista propia de buscadores

Usar varios recursos de bsqueda

Consultar a los bibliotecarios

Informacin final
4/27/2010 Ing. Rodrigo Leiva Diaz 5

Seleccin de herramientas
Usar los tutoriales para aprender a seleccionar y utilizar las diferentes herramientas de bsqueda.

Objetivo de la bsqueda
Usar buscadores o metabuscadores para localizar informacin de la que poseemos datos especficos.
4/27/2010 Ing. Rodrigo Leiva Diaz 6

Forma de bsqueda

Usar buscadores o metabuscadores para realizar bsquedas por palabras Usar directorios o guas para revisar por categoras.

Especializacin de la bsqueda

Usar metabuscadores para realizar bsquedas generales en muchos buscadores a la vez. Usar los concentradores o directorios de buscadores para buscar en varios buscadores especializados.

Precisin de la bsqueda

Seleccionar e instalar en nuestra computadora la versin gratuita de algn motor avanzado o agente auxiliar para las bsquedas en la web. Solicitar la adquisicin para uso institucional de la versin completa de algn motor avanzado o agente auxiliar para las bsquedas en la web.

4/27/2010

Ing. Rodrigo Leiva Diaz

Mucha informacin recuperada

Usar buscadores con opciones avanzadas de bsqueda Usar directorios anotados o guas.

Seleccin de recursos

Usar las guas temticas para conocer los principales recursos de informacin que cubren nuestros intereses. Usar directorios especializados para bsquedas exhaustivas de recursos.

Poca informacin recuperada

Usar mecanismos de bsqueda en la web invisible cuando se hayan agotado los mecanismos de bsqueda en la web superficial. Consultar a especialistas que conozcan recursos especializados. Buscar en recursos adicionales si no se encuentra el material en la web.

4/27/2010

Ing. Rodrigo Leiva Diaz

Caracterizacin de la web invisible o profunda

web opaca (the opaque web)

web privada (the private web)

web propietaria (the proprietary web)

la web realmente invisible (the truly invisible web)

4/27/2010

Ing. Rodrigo Leiva Diaz

web opaca (the opaque web)


Se compone de archivos que podran estar incluidos en los ndices de los motores de bsqueda, pero no lo estn por alguna de estas razones:

Extensin de la indizacin: por economa, no todas las pginas de un sitio son indizadas en los buscadores.

Frecuencia de la indizacin: los motores de bsqueda no tienen la capacidad de indizar todas las pginas existentes; diariamente se aaden, modifican o desaparecen muchas y la indizacin no se realiza al mismo ritmo.
Nmero mximo de resultados visibles: aunque los motores de bsqueda arrojan a veces un gran nmero de resultados de bsqueda, generalmente limitan el nmero de documentos que se muestran (entre 200 y 1000 documentos).
4/27/2010 Ing. Rodrigo Leiva Diaz 10

Nmero mximo de resultados visibles:

aunque los motores de bsqueda arrojan a veces un gran nmero de resultados de bsqueda, generalmente limitan el nmero de documentos que se muestran (entre 200 y 1000 documentos).

4/27/2010

Ing. Rodrigo Leiva Diaz

11

URLs desconectados:
las generaciones ms recientes de buscadores, como Google, presentan los documentos por relevancia basada en el nmero de veces que aparecen referenciados o ligados en otros. Si un documento no tiene una liga en otro documento ser imposible que la pgina sea descubierta, pues no habr sido indizada.

4/27/2010

Ing. Rodrigo Leiva Diaz

12

La web privada
Las pginas estn protegidas por contraseas (passwords).

Contienen un archivo robots.txt para evitar ser indizadas.

Contienen un campo noindex para evitar que el buscador indice la parte correspondiente al cuerpo de la pgina.
4/27/2010 Ing. Rodrigo Leiva Diaz 13

La web propietaria

Incluye aquellas pginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la web profunda contiene informacin de acceso pblico y gratuito (Turner, 2003)

4/27/2010

Ing. Rodrigo Leiva Diaz

14

La web realmente invisible


Pginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.

Pginas generadas dinmicamente, es decir, que se generan a partir de datos que introduce el usuario.

4/27/2010

Ing. Rodrigo Leiva Diaz

15

Buscadores A los softwares que usan los llamados buscadores, motores o maquinarias de bsqueda (search engines) para localizar pginas agregables a sus bases de datos tambin se les denomina indistintamente araas (spiders), rastreadores (crawlers) o robots (en el contexto web). Estos rastrean e indizan de forma automtica pginas web, as como todos los documentos referenciados en ellas. Los buscadores tambin aaden a sus bases de datos las pginas de cuya existencia son informados directamente por sus autores, as como los documentos referenciados en las mismas. Los buscadores presentan interfaces para el pblico, que consisten en cuadros donde realizar bsquedas de forma sencilla. Altavista, Ask Jeeves y Google, entre otros, son buscadores.

Ing. Rodrigo Leiva Diaz

4/27/2010

16

4/27/2010

Ing. Rodrigo Leiva Diaz

17

Importante

Un estudio del 2000 (Notess, citado por Sherman y Price, 2001b) demostr que existe poco solapamiento entre buscadores, lo cual tal vez justifica su proliferacin, ya que cada uno va cubriendo diferentes reas del espacio web, sin que por ahora sea posible tcnicamente que ninguno sea exhaustivo.

4/27/2010

Ing. Rodrigo Leiva Diaz

18

Metabuscadores
Los metabuscadores (metasearch engines) son servidores web que realizan bsquedas en muchos buscadores y/o directorios y presentan un resumen de los resultados, eliminando duplicaciones. Los metabuscadores no se sirven de robots, sino que van a buscar directamente a los ndices de cada buscador. Dogpile, Mamma, Metacrawler o InfoSpace son ejemplos de metabuscadores. Los metabuscadores, al igual que los buscadores, suelen presentar los resultados ordenados por relevancia y muchas veces indican de qu buscadores especficos se ha recuperado cada documento. Una limitacin de los metabuscadores es que no suelen presentar opciones de bsqueda avanzada, con lo cual se sacrifica la precisin en los resultados de las bsquedas.

4/27/2010

Ing. Rodrigo Leiva Diaz

19

4/27/2010

Ing. Rodrigo Leiva Diaz

20

Los directorios (directories) son organizados manualmente a partir del registro de pginas por parte de sus autores e implican una seleccin editorial y un proceso de categorizacin jerarquizada. LookSmart y Yahoo! son algunos de los directorios ms conocidos.

Directorios

4/27/2010

Ing. Rodrigo Leiva Diaz

21

Las categoras en las que se organiza el directorio pueden tener un nmero variable de recursos asociados, con lo cual algunas veces unas categoras resultan saturadas y otras muy poco representadas. En ocasiones, razones como la falta de tiempo, conocimientos o habilidades de los editores, limitan la cobertura de los directorios. Por otro lado, la poltica de solicitar un cargo por incluir pginas, que han adoptado algunos directorios, puede desalentar la inclusin de recursos potencialmente valiosos. En cuanto a la actualizacin, como el mantenimiento del directorio debe ser manual, la verificacin de ligas puede realizarse tan frecuentemente como se quiera, aunque esto no siempre sucede.

4/27/2010

Ing. Rodrigo Leiva Diaz

22

Guas

Diversos especialistas y entidades acadmicas se dan a la tarea de elaborar y mantener pginas concentradoras de recursos web seleccionados por reas de especialidad, a modo de directorios anotados o guas temticas (subject guides), que pueden contener recursos que no son recuperables con un buscador comn. Estos directorios anotados o guas temticas suelen tener un alto grado de calidad, ya que comprometen el prestigio de los autores e instituciones involucradas. La seleccin de recursos suele ser muy cuidadosa y su actualizacin frecuente. En ocasiones diversas instituciones se asocian formando circuitos (web rings) para la elaboracin cooperativa de estas guas, dividindose cada una de las partes. Un buen ejemplo de ello es The WWW Virtual Library. Los directorios anotados o guas pueden incluir, adems, algn mecanismo de bsqueda en sus pginas o en la web en general.

4/27/2010

Ing. Rodrigo Leiva Diaz

23

4/27/2010

Ing. Rodrigo Leiva Diaz

24

Tutoriales
Comnmente no basta con conocer la variedad de herramientas de bsqueda disponibles en la web, sino que se requiere una orientacin sobre su funcionamiento, sobre qu estrategias seguir para trazar una adecuada ruta de bsqueda y sobre cmo elegir los mejores instrumentos para cada necesidad. How to Choose a Search Engine or Directory de la Universidad de Albany en Estados Unidos y las guas de SearchAbility y de la Universidad de Leiden en Holanda A Collection of Special Search Engines, orientan al usuario en el amplio mundo tanto de los recursos especializados en la web como de las maquinarias que permiten su localizacin.

4/27/2010

Ing. Rodrigo Leiva Diaz

25

4/27/2010

Ing. Rodrigo Leiva Diaz

26

4/27/2010

Ing. Rodrigo Leiva Diaz

27

Software especializado

Los agentes auxiliares para las bsquedas en la web son un tipo de programas que operan junto con los navegadores web y aaden funcionalidades a stos, como el manejo de conceptos, en lugar de palabras, para recuperar informacin. Flyswat, Kenjin y Zapper son algunos de estos programas. Otros agentes residen en el cliente web y permiten, por ejemplo, realizar bsquedas simultneas en varios buscadores, eliminar las ligas muertas (dead links), refinar los resultados de las bsquedas o acceder a algunos sitios de la web invisible. Copernic, por ejemplo, es uno de estos agentes.

4/27/2010

Ing. Rodrigo Leiva Diaz

28

4/27/2010

Ing. Rodrigo Leiva Diaz

29

Motores avanzados

Finalmente, los recientes motores de pregunta dirigida (directed query engines) tienen la capacidad de realizar bsquedas simultneas en varias bases de datos en la web. Lexibot y su sucesor, Deep Query Manager, as como Distributed Explorer (Warnick y otros, 2001) y FeedPoint, son ejemplos de estos motores avanzados de bsqueda

4/27/2010

Ing. Rodrigo Leiva Diaz

30

4/27/2010

Ing. Rodrigo Leiva Diaz

31

Compilacin de recursos de bsqueda en la web profunda

Se muestra en las slides siguientes un directorio de recursos obtenidos de la web, donde se encuentran clasificados por funcionalidad.

4/27/2010

Ing. Rodrigo Leiva Diaz

32

Recurso
About http://www.about.com/ AcademicInfo http://www.academicinfo.net/ AlphaSearch http://www.alphasearch.org/ Beaucoup http://www.beaucoup.com/ The Big Hub http://www.thebighub.com/ iBoogie http://www.iboogie.tv/ Collection of Search Engines http://www.leidenuniv.nl/ub/biv/specials.htm CompletePlanet http://www.completeplanet.com/ Metabuscador Directorio de buscadores Gua

Tipo

Directorio

Directorio de buscadores

Directorio de buscadores

Directorio

Directorio

4/27/2010

Ing. Rodrigo Leiva Diaz

33

Recurso
Deep Query Manager (sustituye a Lexibot) http://brightplanet.com/news/dqm2.asp Direct Search http://www.freepint.com/gary/direct.htm Fazzle http://www.fazzle.com/ FeedPoint http://www.quigo.com/feedpoint.htm Fossick http://fossick.com/ HotSheet Motor avanzado

Tipo

Directorio

Metabuscador

Motor avanzado

Metabuscador

Directorio

http://www.hotsheet.com/ IncyWincy
http://www.incywincy.com/ Infomine http://infomine.ucr.edu/ InternetInvisible http://www.internetinvisible.com/ Internets http://www.internets.com/ InvisibleWeb.com http://www.invisibleweb.com/

Directorio

Directorio

Directorio

Directorio

Directorio

4/27/2010

Ing. Rodrigo Leiva Diaz

34

Recurso
Invisible Web Directory
http://www.invisible-web.net/ Ixquick http://www.ixquick.com/ Librarians Index http://lii.org/ LibrarySpot http://www.libraryspot.com/ Master Link List On the Internet http://www.web-friend.com/links/masterlinks.html ProFusion http://www.profusion.com/ RefDesk.com http://refdesk.com/ ResearchIndex (CiteSeer) http://citeseer.nj.nec.com/cs Resource Discovery Network http://www.rdn.ac.uk/ Scirus http://www.scirus.com/ Search.Com http://www.search.com/

Tipo
Directorio

Metabuscador

Directorio

Gua

Directorio

Metabuscador

Directorio

Buscador

Directorio anotado

Buscador

Metabuscador

4/27/2010

Ing. Rodrigo Leiva Diaz

35

Recurso
Search4science http://www.search4science.com/ Strategic Finder http://www.strategicfinder.com/ WebData.com http://www.webdata.com/ Webfile.com http://webfile.com/ WebSearch http://www.websearch.com.au/ Where to Do Research http://www.wheretodoresearch.com/ Motor avanzado

Tipo

Motor avanzado

Directorio de bases de datos

Directorio

Buscador

Directorio

4/27/2010

Ing. Rodrigo Leiva Diaz

36

Recurso

Tipo

4/27/2010

Ing. Rodrigo Leiva Diaz

37

You might also like