Web Superficial y Web Profunda ~ Cazainformación en prácticas

Internet Superficial

Según la Wikipedia, se conoce como Internet superficial a la porción de Internet que es indexada por las arañas de los motores de búsqueda. La parte que no es indexada se conoce como Internet profunda.

Las arañas de los buscadores van recorriendo las páginas web, almacenando información que contienen y buscando enlaces a otros sitios web para seguir actualizando sus bases de datos. Con el tiempo acaban recorriendo todas las páginas de Internet que tienen enlaces desde otras. Pero por distintos motivos (enlaces generados por JavaScript y Flash, páginas protegidas con contraseña, fichero de exclusión de robots, etc.) algunas páginas no pueden ser alcanzadas por las arañas de los buscadores. Estas páginas forman Internet Profunda.

En enero de 2005, según un estudio reciente que investigó distintos motores de búsqueda (Google, MSN, Yahoo y Ask Jeeves) se determinó que había 11.500 millones de páginas web en los índices de los buscadores. En junio de 2008 los índices contenían más de 63.000 millones de páginas Web.

Internet Profunda

Se conoce informalmente como internet profunda o internet invisible a una porción presumiblemente muy grande de Internet que es difícil de rastrear o ha sido hecha casi imposible de rastrear y deliberadamente, como lo es el caso del Proyecto Tor, el cual fue creado de esta manera por medio de métodos poco convencionales, como con la proxyficación con muchos proxys, el no utilizar direcciones de internet, sino códigos, y el pseudodominio de nivel superior .onion, el cual fue creado por la Armada de los Estados Unidos como una prueba y ahora es aprovechada por delincuentes cibernéticos.

En idioma inglés recibe varios nombres: Deepweb (internet profunda), Invisible Web (internet invisible), Deep Web (internet profunda), Dark Web (internet oscura) y Hidden Web (internet oculta).

Se conoce así a todo el contenido de internet que no forma parte de Internet superficial, es decir, de las páginas indexadas por las redes de los motores de búsqueda de la red. Esto se debe a las limitaciones que tienen las redes para acceder a todos los sitios web por distintos motivos. La mayor parte de la información encontrada en Internet profunda está enterrada en sitios generados dinámicamente y para los motores de búsqueda tradicionales es difícil hallarla. Fiscales y agencias gubernamentales han calificado a Internet profunda como un refugio para la delincuencia debido al contenido ilícito que se encuentra en ella.

Origen

La principal causa de la existencia de Internet profunda es la imposibilidad de los motores de búsqueda (Google, Yahoo, Bing, etc.) de encontrar o indexar gran parte de la información existente en internet. Si los buscadores tuvieran la capacidad para acceder a toda la información entonces la magnitud de la «internet profunda» se reduciría casi en su totalidad. No obstante, aunque los motores de búsqueda pudieran indexar la información de Internet profunda esto no significaría que esta dejará de existir, ya que siempre existirán las páginas privadas. Los motores de búsqueda no pueden acceder a la información de estas páginas y solo determinados usuarios, aquellos con contraseña o códigos especiales, pueden hacerlo.

Los siguientes son algunos de los motivos por los que los buscadores son incapaces de indexar Internet profunda:

Páginas y sitios web protegidos con contraseñas o códigos establecidos.
Páginas que el buscador decidió no indexar: esto se da generalmente porque la demanda para el archivo que se decidió no indexar es poca en comparación con los archivos de texto HTML; estos archivos generalmente también son más «difíciles» de indexar y requieren más recursos.
Sitios que, dentro de su código, tienen archivos que le impiden al buscador indexarlo.
Documentos en formatos no indexables.
Según la tecnología usada por el sitio: por ejemplo los sitios que usan bases de datos. Para estos casos los buscadores pueden llegar a la interfaz creada para acceder a dichas bases de datos, como por ejemplo, catálogos de librerías o agencias de gobierno.
Enciclopedias, diccionarios, revistas en las que para acceder a la información hay que interrogar a la base de datos, como por ejemplo la base de datos de la RAE.
Sitios que tienen una mezcla de medios o archivos que no son fáciles de clasificar como visible o invisible (Web opaca).
La información es efímera o no suficientemente valiosa para indexar. Es posible indexar está información pero como cambia con mucha frecuencia y su valor es de tiempo limitado no hay motivo para indexarla.
Páginas que contienen mayormente imágenes, audio o video con poco o nada de texto.
Los archivos en formatos PostScript, Flash, Shockwave, ejecutables (.exe), archivos comprimidos (.zip,.rar, etc).
Información creada en páginas dinámicas después de llenar un formulario, la información detrás de los formularios es invisible.
Documentos dinámicos, son creados por un script que selecciona datos de diversas opciones para generar una página personalizada. Este tipo de documentos, aunque sí se pueden indexar, no están en los motores de búsqueda porque en ocasiones puede haber varias páginas iguales, pero con pequeños cambios, y las arañas web quedan atrapadas en ellos.
Es un sitio aislado, es decir, no hay links que lo vinculen con otros sitios y viceversa.
Son subdirectorios o bases de datos restringidas.

Recursos de Internet profunda

Los recursos de la web profunda pueden estar clasificados en las siguientes categorías:

Contenido de acceso limitado: los sitios que limitan el acceso a sus páginas de una manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o captcha, que prohíben los motores de búsqueda de la navegación por y la creación de copias en caché.23
Contenido dinámico: las páginas dinámicas que devuelven respuesta a una pregunta presentada o acceder a través de un formulario, especialmente si se utilizan elementos de entrada en el dominio abierto como campos de texto.
Contenido no enlazado: páginas que no están conectadas con otras páginas, que pueden impedir que los programas de rastreo web tengan acceso al contenido. Este material se conoce como páginas sin enlaces entrantes.
Contenido programado: páginas que solo son accesibles a través de enlaces producidos por JavaScript, así como el contenido descargado de manera dinámica a partir de los servidores web a través de soluciones de Flash o Ajax.
Sin contenido HTML: contenido textual codificado en multimedia (imagen o video) archivos o formatos de archivo específicos no tratados por los motores de búsqueda.
Web privada: los sitios que requieren de registro y de una contraseña para iniciar sesión
Web contextual: páginas con contenidos diferentes para diferentes contextos de acceso (por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación anterior).

Vídeo

También os dejo un vídeo de un compañero de curso de la anterior edición que he encontrado durante mi búsqueda de información sobre el tema y que me ha gustado mucho. En la sección "Para más información" os dejo el link a su blog.

Para más información:

Wikipedia: Internet Superficial.

Wikipedia: Internet Profunda.

Tresures Finder: Web Superficial y Web Profunda.

3 comentarios:

jlmf1218 de octubre de 2015 a las 23:42
Este comentario ha sido eliminado por el autor.
ResponderEliminar
Respuestas
jlmf1219 de octubre de 2015 a las 7:10
Me alegro de que te guste el vídeo. En la primera edición creamos un grupo de Facebook para apoyo del curso, si te apetece participar puedes pedirnos acceso:

Grupo de Facebook

A raiz del grupo hemos podido crear vínculos entre compañeros y algunos estamos en contacto permanente desde un blog creado a raiz de ello:

Vuelta al cole a los 40

Espero que sigas disfrutando del curso, y si te apetece hacernos una visita en los enlaces de arriba, allí estaremos, seguro que te llevas alguna sorpresa.

Saludos ;)
ResponderEliminar
Respuestas