You are on page 1of 5

La principal causa de la existencia del internet profunda es la imposibilidad de los motores de

bsqueda (DuckDuckGo, Google, Yahoo, Bing, etc.) de encontrar o indexar gran parte de la
informacin existente en internet. Si los buscadores tuvieran la capacidad para acceder a toda
la informacin entonces la magnitud de la internet profunda se reducira casi en su totalidad.
No obstante, aunque los motores de bsqueda pudieran indexar la informacin del internet
profunda esto no significara que esta dejar de existir, ya que siempre existirn las pginas
privadas. Los motores de bsqueda no pueden acceder a la informacin de estas pginas y
slo determinados usuarios, aquellos con contraseas o cdigos especiales, pueden hacerlo.

Tamao[editar]

La internet profunda es un conjunto de sitios web y bases de datos que buscadores comunes
no pueden encontrar ya que no estn indexadas. El contenido que se puede hallar dentro de la
internet profunda es muy amplio.6

El internet se ve dividido en dos ramas, La internet profunda y la superficial. La internet


superficial se compone de pginas estticas o fijas, mientras que la web profunda est
compuesta de pginas dinmicas. Las pginas estticas no dependen de una base de datos
para desplegar su contenido sino que residen en un servidor en espera de ser recuperadas, y
son bsicamente archivos HTML cuyo contenido nunca cambia. Todos los cambios se realizan
directamente en el cdigo y la nueva versin de la pgina se carga en el servidor. Estas
pginas son menos flexibles que las pginas dinmicas. Las pginas dinmicas se crean como
resultado de una bsqueda de base de datos. El contenido se coloca en una base de datos y
se proporciona slo cuando lo solicite el usuario.7

En 2010 se estim que la informacin que se encuentra en la internet profunda es de


7500 terabytes, lo que equivale a aproximadamente 550 billones de documentos individuales.
El contenido de la internet profunda es de 400 a 550 veces mayor de lo que se puede encontrar
en la internet superficial. En comparacin, se estima que la internet superficial contiene solo 19
terabytes de contenido y un billn de documentos individuales.

Tambin en 2010 se estim que existan ms de 200 000 sitios en la internet profunda.8

Estimaciones basadas en la extrapolacin de un estudio de la Universidad de California en


Berkeley especula que actualmente la internet profunda debe tener unos 91 000 terabytes.9

La Association for Computing Machinery (ACM) public en 2007


que Google y Yahoo indexaban el 32 % de los objetos de la internet profunda, y MSN tena la
cobertura ms pequea con el 11 %. Sin embargo, la cobertura de los tres motores era de
37 %, lo que indicaba que estaban indexando casi los mismos objetos. 10

Se prev que alrededor del 95 % del internet es internet profunda, tambin le llaman invisible u
oculta, la informacin que alberga no siempre est disponible para su uso. Por ello se han
desarrollado herramientas como buscadores especializados para acceder a ella. 11

Motivos[editar]

Motivos por los que los motores de bsqueda no pueden indexar algunas pginas:

Web contextual: pginas cuyo contenido vara dependiendo del contexto (por ejemplo,
la direccin IP del cliente, de las visitas anteriores, etc.).

Contenido dinmico: pginas dinmicas obtenidas como respuesta a parmetros, por


ejemplo, datos enviados a travs de un formulario.
Contenido de acceso restringido: pginas protegidas con contrasea, contenido
protegido por un Captcha, etc.

Contenido No HTML: contenido textual en archivos multimedia, otras extensiones


como exe, rar, zip, etc.

Software: Contenido oculto intencionadamente, que requiere un programa o protocolo


especfico para poder acceder (ejemplos: Tor, I2P, Freenet)

Pginas no enlazadas: pginas de cuya existencia no tienen referencia los


buscadores; por ejemplo, pginas que no tienen enlaces desde otras pginas.

Denominacin[editar]

Son pginas de texto, archivos, o en ocasiones informacin a la cual se puede acceder por
medio de la World Wide Web que los buscadores de uso general no pueden, debido a
limitaciones o deliberadamente, agregar a sus ndices de pginas web.

La Web profunda se refiere a la coleccin de sitios o bases de datos que un buscador comn,
como Google, no puede o no quiere indexar. Es un lugar especfico del internet que se
distingue por el anonimato. Nada que se haga en esta zona puede ser asociado con la
identidad de uno, a menos que uno lo desee.12

Bergman, en un artculo semanal sobre la Web profunda publicado en el Journal of Electronic


Publishing, mencion que Jill Ellsworth utiliz el trmino Web invisible en 1994 para referirse
a los sitios web que no estn registrados por ningn motor de bsqueda. 13

En su artculo, Bergman cit la entrevista que Frank Garca hizo a Ellsworth en 1996: 14

Sera un sitio que, posiblemente est diseado razonablemente, pero no se molestaron en


registrarlo en alguno de los motores de bsqueda. Por lo tanto, nadie puede encontrarlos!
Ests oculto. Yo llamo a esto la Web invisible.

Otro uso temprano del trmino Web Invisible o web profunda fue por Bruce Monte y Mateo B.
Koll de Personal Library Software, en una descripcin de la herramienta @ 1 de web profunda,
en un comunicado de prensa de diciembre de 1996. 15

La importancia potencial de las bases de datos de bsqueda tambin se reflej en el primer


sitio de bsqueda dedicado a ellos, el motor AT1 que se anunci a bombo y platillo a principios
de 1997. Sin embargo, PLS, propietario de AT1, fue adquirida por AOL en 1998, y poco
despus el servicio AT1 fue abandonado.13

El primer uso del trmino especfico de web profunda, ahora generalmente aceptada, ocurri en
el estudio de Bergman de 2001 mencionado anteriormente.

Por otra parte, el trmino web invisible se dice que es inexacto porque:

Muchos usuarios asumen que la nica forma de acceder a la web es consultando un


buscador.

Alguna informacin puede ser encontrada ms fcilmente que otra, pero esto no quiere
decir que est invisible.
La web contiene informacin de diversos tipos que es almacenada y recuperada en
diferentes formas.

El contenido indexado por los buscadores de la web es almacenado tambin en bases


de datos y disponible solamente a travs de las peticiones o consultas del usuario, por
tanto no es correcto decir que la informacin almacenada en bases de datos es invisible. 16

Rastreando la internet profunda[editar]

Los motores de bsqueda comerciales han comenzado a explorar mtodos alternativos para
rastrear la Web profunda. El Protocolo del sitio (primero desarrollado e introducido
por Google en 2005) y OAI son mecanismos que permiten a los motores de bsqueda y otras
partes interesadas descubrir recursos de la internet profunda en los servidores web en
particular. Ambos mecanismos permiten que los servidores web anuncien las
direcciones URL que se puede acceder a ellos, lo que permite la deteccin automtica de los
recursos que no estn directamente vinculados a la Web de la superficie. El sistema de
bsqueda de la Web profunda de Google pre-calcula las entregas de cada formulario HTML y
agrega a las pginas HTML resultantes en el ndice del motor de bsqueda de Google. Los
resultados surgidos arrojaron mil consultas por segundo al contenido de la Web
profunda.17 Este sistema se realiza utilizando tres algoritmos claves:

La seleccin de valores de entrada, para que las entradas de bsqueda de texto


acepten palabras clave.

La identificacin de los insumos que aceptan solo valores especficos (por ejemplo,
fecha).

La seleccin de un pequeo nmero de combinaciones de entrada que generan URLs


adecuadas para su inclusin en el ndice de bsqueda Web.

Mtodos de profundizacin[editar]

Las araas (web crawlers)[editar]

Cuando se ingresa a un buscador y se realiza una consulta, el buscador no recorre la totalidad


de internet en busca de las posibles respuestas, sino que busca en su propia base de datos,
que ha sido generada e indexada previamente. Se utiliza el trmino araa web (en
ingls web crawler) o robots (por software, comnmente llamados "bots") inteligentes que van
haciendo bsquedas por enlaces de hipertexto de pgina en pgina, registrando la informacin
ah disponible.18

El contenido que existe dentro de la internet profunda es en muy raras ocasiones mostrado
como resultado en los motores de bsqueda, ya que las araas no rastrean bases de datos
ni los extraen. Las araas no pueden tener acceso a pginas protegidas con contraseas,
algunos desarrolladores que no desean que sus pginas sean encontradas insertan etiquetas
especiales en el cdigo para evitar que sea indexada. Las araas son incapaces de mostrar
pginas que no estn creadas en lenguaje HTML, ni tampoco puede leer enlaces que incluyen
un signo de interrogacin. Pero ahora sitios web no creados con HTML o con signos de
interrogacin estn siendo indexados por algunos motores de bsqueda. Sin embargo, se
calcula que incluso con estos buscadores ms avanzados solo se logra alcanzar el 16 % de la
informacin disponible en la internet profunda. Existen diferentes tcnicas de bsqueda para
extraer contenido de la internet profunda como libreras de bases de datos o simplemente
conocer el URL al que quieres acceder y escribirlo manualmente.19
Tor[editar]
Artculo principal: Tor (red de anonimato)

Logo de tor

The Onion Router (abreviado como TOR) es un proyecto diseado e implementado por la
marina de los Estados Unidos lanzado el 20 de septiembre de 2002. Posteriormente fue
patrocinado por la EFF (Electronic Frontier Foundation, una organizacin en defensa de los
derechos digitales). Al presente (2017), subsiste como TOR Project, una organizacin sin
nimo de lucro galardonada en 2011 por la Free Software Foundation por permitir que millones
de personas en el mundo tengan libertad de acceso y expresin en internet manteniendo su
privacidad y anonimato.11

A diferencia de los navegadores de internet convencionales, Tor le permite a los usuarios


navegar por la Web de forma annima. Tor es descargado de 30 millones a 50 millones de
veces al ao, hay 0,8 millones de usuarios diarios de Tor y un incremento del 20 % solamente
en 2013. Tor puede acceder a unos 6500 sitios web ocultos.20

Cuando se ejecuta el software de Tor, para acceder a la internet profunda, los datos de la
computadora se cifran en capas. El software enva los datos a travs de una red de enlaces a
otros equipos llamados en ingls relays (nodos) y lo va retransmitiendo quitando una
capa antes de retransmitirlo de nuevo, esta trayectoria cambia con frecuencia. Tor cuenta con
ms de 4000 retransmisiones y todos los datos cifrados pasan a travs de por lo menos
tres de estos relays. Una vez que la ltima capa de cifrado es retirado por un nodo de salida, se
conecta a la pgina web que desea visitar.

El contenido que puede ser encontrado dentro de la internet profunda es muy vasto, se
encuentran por ejemplo, datos que se generan en tiempo real, como pueden ser valores de
Bolsa, informacin del tiempo, horarios de trenes; bases de datos sobre agencias de
inteligencia, disidentes polticos y contenidos criminales.18

Bitcoin[editar]

Logo de Bitcoin

Mercados ilegales estn alojados en servidores que son exclusivos para usuarios de Tor. En
estos sitios, se pueden encontrar drogas, armas, o incluso asesinos a sueldo. Se utiliza la
moneda digital llamada Bitcoin, que tiene sus orgenes en 2009, pero que se ha vuelto todo un
fenmeno desde 2012,11 que se intercambia a travs de billeteras digitales entre el usuario y el
vendedor, lo que hace que sea prcticamente imposible de rastrear.21

Existen muchos mitos acerca de la internet profunda. La internet profunda no es una regin
prohibida o mstica de internet, y la tecnologa relacionada con ella no es malvola, ya que en
ella tambin se alberga lo que ahora se conoce como AIW (Academic Invisible Web: internet
acadmica invisible por sus siglas en ingls) y se refiere a todas las bases de datos que
contienen avances tecnolgicos, publicaciones cientficas, y material acadmico en general. 22

Recursos de la internet profunda[editar]

Los recursos de la internet profunda pueden estar clasificados en las siguientes categoras:

Contenido de acceso limitado: los sitios que limitan el acceso a sus pginas de una
manera tcnica (Por ejemplo, utilizando el estndar de exclusin de robots o captcha, que
prohben los motores de bsqueda de la navegacin por y la creacin de copias en
cach.23

Contenido dinmico: las pginas dinmicas que devuelven respuesta a una pregunta
presentada o acceder a travs de un formulario, especialmente si se utilizan elementos de
entrada en el dominio abierto como campos de texto.

Contenido no enlazado: pginas que no estn conectadas con otras pginas, que
pueden impedir que los programas de rastreo web tengan acceso al contenido. Este
material se conoce como pginas sin enlaces entrantes.

Contenido programado: pginas que solo son accesibles a travs de enlaces


producidos por JavaScript, as como el contenido descargado de manera dinmica a partir
de los servidores web a travs de soluciones de Flash o Ajax.

Sin contenido HTML: contenido textual codificado en multimedia (imagen o video)


archivos o formatos de archivo especficos no tratados por los motores de bsqueda.

Web privada: los sitios que requieren de registro y de una contrasea para iniciar
sesin

Web contextual: pginas con contenidos diferentes para diferentes contextos de


acceso (por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegacin
anterior).

You might also like