Professional Documents
Culture Documents
bsqueda (DuckDuckGo, Google, Yahoo, Bing, etc.) de encontrar o indexar gran parte de la
informacin existente en internet. Si los buscadores tuvieran la capacidad para acceder a toda
la informacin entonces la magnitud de la internet profunda se reducira casi en su totalidad.
No obstante, aunque los motores de bsqueda pudieran indexar la informacin del internet
profunda esto no significara que esta dejar de existir, ya que siempre existirn las pginas
privadas. Los motores de bsqueda no pueden acceder a la informacin de estas pginas y
slo determinados usuarios, aquellos con contraseas o cdigos especiales, pueden hacerlo.
Tamao[editar]
La internet profunda es un conjunto de sitios web y bases de datos que buscadores comunes
no pueden encontrar ya que no estn indexadas. El contenido que se puede hallar dentro de la
internet profunda es muy amplio.6
Tambin en 2010 se estim que existan ms de 200 000 sitios en la internet profunda.8
Se prev que alrededor del 95 % del internet es internet profunda, tambin le llaman invisible u
oculta, la informacin que alberga no siempre est disponible para su uso. Por ello se han
desarrollado herramientas como buscadores especializados para acceder a ella. 11
Motivos[editar]
Motivos por los que los motores de bsqueda no pueden indexar algunas pginas:
Web contextual: pginas cuyo contenido vara dependiendo del contexto (por ejemplo,
la direccin IP del cliente, de las visitas anteriores, etc.).
Denominacin[editar]
Son pginas de texto, archivos, o en ocasiones informacin a la cual se puede acceder por
medio de la World Wide Web que los buscadores de uso general no pueden, debido a
limitaciones o deliberadamente, agregar a sus ndices de pginas web.
La Web profunda se refiere a la coleccin de sitios o bases de datos que un buscador comn,
como Google, no puede o no quiere indexar. Es un lugar especfico del internet que se
distingue por el anonimato. Nada que se haga en esta zona puede ser asociado con la
identidad de uno, a menos que uno lo desee.12
En su artculo, Bergman cit la entrevista que Frank Garca hizo a Ellsworth en 1996: 14
Otro uso temprano del trmino Web Invisible o web profunda fue por Bruce Monte y Mateo B.
Koll de Personal Library Software, en una descripcin de la herramienta @ 1 de web profunda,
en un comunicado de prensa de diciembre de 1996. 15
El primer uso del trmino especfico de web profunda, ahora generalmente aceptada, ocurri en
el estudio de Bergman de 2001 mencionado anteriormente.
Por otra parte, el trmino web invisible se dice que es inexacto porque:
Alguna informacin puede ser encontrada ms fcilmente que otra, pero esto no quiere
decir que est invisible.
La web contiene informacin de diversos tipos que es almacenada y recuperada en
diferentes formas.
Los motores de bsqueda comerciales han comenzado a explorar mtodos alternativos para
rastrear la Web profunda. El Protocolo del sitio (primero desarrollado e introducido
por Google en 2005) y OAI son mecanismos que permiten a los motores de bsqueda y otras
partes interesadas descubrir recursos de la internet profunda en los servidores web en
particular. Ambos mecanismos permiten que los servidores web anuncien las
direcciones URL que se puede acceder a ellos, lo que permite la deteccin automtica de los
recursos que no estn directamente vinculados a la Web de la superficie. El sistema de
bsqueda de la Web profunda de Google pre-calcula las entregas de cada formulario HTML y
agrega a las pginas HTML resultantes en el ndice del motor de bsqueda de Google. Los
resultados surgidos arrojaron mil consultas por segundo al contenido de la Web
profunda.17 Este sistema se realiza utilizando tres algoritmos claves:
La identificacin de los insumos que aceptan solo valores especficos (por ejemplo,
fecha).
Mtodos de profundizacin[editar]
El contenido que existe dentro de la internet profunda es en muy raras ocasiones mostrado
como resultado en los motores de bsqueda, ya que las araas no rastrean bases de datos
ni los extraen. Las araas no pueden tener acceso a pginas protegidas con contraseas,
algunos desarrolladores que no desean que sus pginas sean encontradas insertan etiquetas
especiales en el cdigo para evitar que sea indexada. Las araas son incapaces de mostrar
pginas que no estn creadas en lenguaje HTML, ni tampoco puede leer enlaces que incluyen
un signo de interrogacin. Pero ahora sitios web no creados con HTML o con signos de
interrogacin estn siendo indexados por algunos motores de bsqueda. Sin embargo, se
calcula que incluso con estos buscadores ms avanzados solo se logra alcanzar el 16 % de la
informacin disponible en la internet profunda. Existen diferentes tcnicas de bsqueda para
extraer contenido de la internet profunda como libreras de bases de datos o simplemente
conocer el URL al que quieres acceder y escribirlo manualmente.19
Tor[editar]
Artculo principal: Tor (red de anonimato)
Logo de tor
The Onion Router (abreviado como TOR) es un proyecto diseado e implementado por la
marina de los Estados Unidos lanzado el 20 de septiembre de 2002. Posteriormente fue
patrocinado por la EFF (Electronic Frontier Foundation, una organizacin en defensa de los
derechos digitales). Al presente (2017), subsiste como TOR Project, una organizacin sin
nimo de lucro galardonada en 2011 por la Free Software Foundation por permitir que millones
de personas en el mundo tengan libertad de acceso y expresin en internet manteniendo su
privacidad y anonimato.11
Cuando se ejecuta el software de Tor, para acceder a la internet profunda, los datos de la
computadora se cifran en capas. El software enva los datos a travs de una red de enlaces a
otros equipos llamados en ingls relays (nodos) y lo va retransmitiendo quitando una
capa antes de retransmitirlo de nuevo, esta trayectoria cambia con frecuencia. Tor cuenta con
ms de 4000 retransmisiones y todos los datos cifrados pasan a travs de por lo menos
tres de estos relays. Una vez que la ltima capa de cifrado es retirado por un nodo de salida, se
conecta a la pgina web que desea visitar.
El contenido que puede ser encontrado dentro de la internet profunda es muy vasto, se
encuentran por ejemplo, datos que se generan en tiempo real, como pueden ser valores de
Bolsa, informacin del tiempo, horarios de trenes; bases de datos sobre agencias de
inteligencia, disidentes polticos y contenidos criminales.18
Bitcoin[editar]
Logo de Bitcoin
Mercados ilegales estn alojados en servidores que son exclusivos para usuarios de Tor. En
estos sitios, se pueden encontrar drogas, armas, o incluso asesinos a sueldo. Se utiliza la
moneda digital llamada Bitcoin, que tiene sus orgenes en 2009, pero que se ha vuelto todo un
fenmeno desde 2012,11 que se intercambia a travs de billeteras digitales entre el usuario y el
vendedor, lo que hace que sea prcticamente imposible de rastrear.21
Existen muchos mitos acerca de la internet profunda. La internet profunda no es una regin
prohibida o mstica de internet, y la tecnologa relacionada con ella no es malvola, ya que en
ella tambin se alberga lo que ahora se conoce como AIW (Academic Invisible Web: internet
acadmica invisible por sus siglas en ingls) y se refiere a todas las bases de datos que
contienen avances tecnolgicos, publicaciones cientficas, y material acadmico en general. 22
Los recursos de la internet profunda pueden estar clasificados en las siguientes categoras:
Contenido de acceso limitado: los sitios que limitan el acceso a sus pginas de una
manera tcnica (Por ejemplo, utilizando el estndar de exclusin de robots o captcha, que
prohben los motores de bsqueda de la navegacin por y la creacin de copias en
cach.23
Contenido dinmico: las pginas dinmicas que devuelven respuesta a una pregunta
presentada o acceder a travs de un formulario, especialmente si se utilizan elementos de
entrada en el dominio abierto como campos de texto.
Contenido no enlazado: pginas que no estn conectadas con otras pginas, que
pueden impedir que los programas de rastreo web tengan acceso al contenido. Este
material se conoce como pginas sin enlaces entrantes.
Web privada: los sitios que requieren de registro y de una contrasea para iniciar
sesin