Professional Documents
Culture Documents
4/27/2010
Resumen
Se denomina web invisible o profunda a la informacin que no puede recuperarse con los mecanismos de bsqueda comunes. Estos mecanismos tratan de abarcar toda la web, pero se calcula que los mayores motores de bsqueda alcanzan a indizar slo entre un tercio y la mitad de los documentos disponibles. La web invisible no slo es de mayor tamao que la web visible o superficial sino que crece a mayor velocidad. Asimismo, mucha informacin disponible en la web profunda, como la que se encuentra en bases de datos, tiene un alto valor potencial para el usuario.
4/27/2010
El trmino web invisible fue utilizado por primera vez por la Dra. Jill Ellsworth para denominar la informacin que resultaba invisible para las maquinarias de bsqueda convencionales en la web (Ellsworth, 1995).
Un buscador es un sitio web cuyo propsito principal consiste en que el pblico pueda encontrar informacin
4/27/2010
Informacin final
4/27/2010 Ing. Rodrigo Leiva Diaz 5
Seleccin de herramientas
Usar los tutoriales para aprender a seleccionar y utilizar las diferentes herramientas de bsqueda.
Objetivo de la bsqueda
Usar buscadores o metabuscadores para localizar informacin de la que poseemos datos especficos.
4/27/2010 Ing. Rodrigo Leiva Diaz 6
Forma de bsqueda
Usar buscadores o metabuscadores para realizar bsquedas por palabras Usar directorios o guas para revisar por categoras.
Especializacin de la bsqueda
Usar metabuscadores para realizar bsquedas generales en muchos buscadores a la vez. Usar los concentradores o directorios de buscadores para buscar en varios buscadores especializados.
Precisin de la bsqueda
Seleccionar e instalar en nuestra computadora la versin gratuita de algn motor avanzado o agente auxiliar para las bsquedas en la web. Solicitar la adquisicin para uso institucional de la versin completa de algn motor avanzado o agente auxiliar para las bsquedas en la web.
4/27/2010
Usar buscadores con opciones avanzadas de bsqueda Usar directorios anotados o guas.
Seleccin de recursos
Usar las guas temticas para conocer los principales recursos de informacin que cubren nuestros intereses. Usar directorios especializados para bsquedas exhaustivas de recursos.
Usar mecanismos de bsqueda en la web invisible cuando se hayan agotado los mecanismos de bsqueda en la web superficial. Consultar a especialistas que conozcan recursos especializados. Buscar en recursos adicionales si no se encuentra el material en la web.
4/27/2010
4/27/2010
Extensin de la indizacin: por economa, no todas las pginas de un sitio son indizadas en los buscadores.
Frecuencia de la indizacin: los motores de bsqueda no tienen la capacidad de indizar todas las pginas existentes; diariamente se aaden, modifican o desaparecen muchas y la indizacin no se realiza al mismo ritmo.
Nmero mximo de resultados visibles: aunque los motores de bsqueda arrojan a veces un gran nmero de resultados de bsqueda, generalmente limitan el nmero de documentos que se muestran (entre 200 y 1000 documentos).
4/27/2010 Ing. Rodrigo Leiva Diaz 10
aunque los motores de bsqueda arrojan a veces un gran nmero de resultados de bsqueda, generalmente limitan el nmero de documentos que se muestran (entre 200 y 1000 documentos).
4/27/2010
11
URLs desconectados:
las generaciones ms recientes de buscadores, como Google, presentan los documentos por relevancia basada en el nmero de veces que aparecen referenciados o ligados en otros. Si un documento no tiene una liga en otro documento ser imposible que la pgina sea descubierta, pues no habr sido indizada.
4/27/2010
12
La web privada
Las pginas estn protegidas por contraseas (passwords).
Contienen un campo noindex para evitar que el buscador indice la parte correspondiente al cuerpo de la pgina.
4/27/2010 Ing. Rodrigo Leiva Diaz 13
La web propietaria
Incluye aquellas pginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la web profunda contiene informacin de acceso pblico y gratuito (Turner, 2003)
4/27/2010
14
Pginas generadas dinmicamente, es decir, que se generan a partir de datos que introduce el usuario.
4/27/2010
15
Buscadores A los softwares que usan los llamados buscadores, motores o maquinarias de bsqueda (search engines) para localizar pginas agregables a sus bases de datos tambin se les denomina indistintamente araas (spiders), rastreadores (crawlers) o robots (en el contexto web). Estos rastrean e indizan de forma automtica pginas web, as como todos los documentos referenciados en ellas. Los buscadores tambin aaden a sus bases de datos las pginas de cuya existencia son informados directamente por sus autores, as como los documentos referenciados en las mismas. Los buscadores presentan interfaces para el pblico, que consisten en cuadros donde realizar bsquedas de forma sencilla. Altavista, Ask Jeeves y Google, entre otros, son buscadores.
4/27/2010
16
4/27/2010
17
Importante
Un estudio del 2000 (Notess, citado por Sherman y Price, 2001b) demostr que existe poco solapamiento entre buscadores, lo cual tal vez justifica su proliferacin, ya que cada uno va cubriendo diferentes reas del espacio web, sin que por ahora sea posible tcnicamente que ninguno sea exhaustivo.
4/27/2010
18
Metabuscadores
Los metabuscadores (metasearch engines) son servidores web que realizan bsquedas en muchos buscadores y/o directorios y presentan un resumen de los resultados, eliminando duplicaciones. Los metabuscadores no se sirven de robots, sino que van a buscar directamente a los ndices de cada buscador. Dogpile, Mamma, Metacrawler o InfoSpace son ejemplos de metabuscadores. Los metabuscadores, al igual que los buscadores, suelen presentar los resultados ordenados por relevancia y muchas veces indican de qu buscadores especficos se ha recuperado cada documento. Una limitacin de los metabuscadores es que no suelen presentar opciones de bsqueda avanzada, con lo cual se sacrifica la precisin en los resultados de las bsquedas.
4/27/2010
19
4/27/2010
20
Los directorios (directories) son organizados manualmente a partir del registro de pginas por parte de sus autores e implican una seleccin editorial y un proceso de categorizacin jerarquizada. LookSmart y Yahoo! son algunos de los directorios ms conocidos.
Directorios
4/27/2010
21
Las categoras en las que se organiza el directorio pueden tener un nmero variable de recursos asociados, con lo cual algunas veces unas categoras resultan saturadas y otras muy poco representadas. En ocasiones, razones como la falta de tiempo, conocimientos o habilidades de los editores, limitan la cobertura de los directorios. Por otro lado, la poltica de solicitar un cargo por incluir pginas, que han adoptado algunos directorios, puede desalentar la inclusin de recursos potencialmente valiosos. En cuanto a la actualizacin, como el mantenimiento del directorio debe ser manual, la verificacin de ligas puede realizarse tan frecuentemente como se quiera, aunque esto no siempre sucede.
4/27/2010
22
Guas
Diversos especialistas y entidades acadmicas se dan a la tarea de elaborar y mantener pginas concentradoras de recursos web seleccionados por reas de especialidad, a modo de directorios anotados o guas temticas (subject guides), que pueden contener recursos que no son recuperables con un buscador comn. Estos directorios anotados o guas temticas suelen tener un alto grado de calidad, ya que comprometen el prestigio de los autores e instituciones involucradas. La seleccin de recursos suele ser muy cuidadosa y su actualizacin frecuente. En ocasiones diversas instituciones se asocian formando circuitos (web rings) para la elaboracin cooperativa de estas guas, dividindose cada una de las partes. Un buen ejemplo de ello es The WWW Virtual Library. Los directorios anotados o guas pueden incluir, adems, algn mecanismo de bsqueda en sus pginas o en la web en general.
4/27/2010
23
4/27/2010
24
Tutoriales
Comnmente no basta con conocer la variedad de herramientas de bsqueda disponibles en la web, sino que se requiere una orientacin sobre su funcionamiento, sobre qu estrategias seguir para trazar una adecuada ruta de bsqueda y sobre cmo elegir los mejores instrumentos para cada necesidad. How to Choose a Search Engine or Directory de la Universidad de Albany en Estados Unidos y las guas de SearchAbility y de la Universidad de Leiden en Holanda A Collection of Special Search Engines, orientan al usuario en el amplio mundo tanto de los recursos especializados en la web como de las maquinarias que permiten su localizacin.
4/27/2010
25
4/27/2010
26
4/27/2010
27
Software especializado
Los agentes auxiliares para las bsquedas en la web son un tipo de programas que operan junto con los navegadores web y aaden funcionalidades a stos, como el manejo de conceptos, en lugar de palabras, para recuperar informacin. Flyswat, Kenjin y Zapper son algunos de estos programas. Otros agentes residen en el cliente web y permiten, por ejemplo, realizar bsquedas simultneas en varios buscadores, eliminar las ligas muertas (dead links), refinar los resultados de las bsquedas o acceder a algunos sitios de la web invisible. Copernic, por ejemplo, es uno de estos agentes.
4/27/2010
28
4/27/2010
29
Motores avanzados
Finalmente, los recientes motores de pregunta dirigida (directed query engines) tienen la capacidad de realizar bsquedas simultneas en varias bases de datos en la web. Lexibot y su sucesor, Deep Query Manager, as como Distributed Explorer (Warnick y otros, 2001) y FeedPoint, son ejemplos de estos motores avanzados de bsqueda
4/27/2010
30
4/27/2010
31
Se muestra en las slides siguientes un directorio de recursos obtenidos de la web, donde se encuentran clasificados por funcionalidad.
4/27/2010
32
Recurso
About http://www.about.com/ AcademicInfo http://www.academicinfo.net/ AlphaSearch http://www.alphasearch.org/ Beaucoup http://www.beaucoup.com/ The Big Hub http://www.thebighub.com/ iBoogie http://www.iboogie.tv/ Collection of Search Engines http://www.leidenuniv.nl/ub/biv/specials.htm CompletePlanet http://www.completeplanet.com/ Metabuscador Directorio de buscadores Gua
Tipo
Directorio
Directorio de buscadores
Directorio de buscadores
Directorio
Directorio
4/27/2010
33
Recurso
Deep Query Manager (sustituye a Lexibot) http://brightplanet.com/news/dqm2.asp Direct Search http://www.freepint.com/gary/direct.htm Fazzle http://www.fazzle.com/ FeedPoint http://www.quigo.com/feedpoint.htm Fossick http://fossick.com/ HotSheet Motor avanzado
Tipo
Directorio
Metabuscador
Motor avanzado
Metabuscador
Directorio
http://www.hotsheet.com/ IncyWincy
http://www.incywincy.com/ Infomine http://infomine.ucr.edu/ InternetInvisible http://www.internetinvisible.com/ Internets http://www.internets.com/ InvisibleWeb.com http://www.invisibleweb.com/
Directorio
Directorio
Directorio
Directorio
Directorio
4/27/2010
34
Recurso
Invisible Web Directory
http://www.invisible-web.net/ Ixquick http://www.ixquick.com/ Librarians Index http://lii.org/ LibrarySpot http://www.libraryspot.com/ Master Link List On the Internet http://www.web-friend.com/links/masterlinks.html ProFusion http://www.profusion.com/ RefDesk.com http://refdesk.com/ ResearchIndex (CiteSeer) http://citeseer.nj.nec.com/cs Resource Discovery Network http://www.rdn.ac.uk/ Scirus http://www.scirus.com/ Search.Com http://www.search.com/
Tipo
Directorio
Metabuscador
Directorio
Gua
Directorio
Metabuscador
Directorio
Buscador
Directorio anotado
Buscador
Metabuscador
4/27/2010
35
Recurso
Search4science http://www.search4science.com/ Strategic Finder http://www.strategicfinder.com/ WebData.com http://www.webdata.com/ Webfile.com http://webfile.com/ WebSearch http://www.websearch.com.au/ Where to Do Research http://www.wheretodoresearch.com/ Motor avanzado
Tipo
Motor avanzado
Directorio
Buscador
Directorio
4/27/2010
36
Recurso
Tipo
4/27/2010
37