2009-11-30 7 views

Respuesta

3

hay un Protocolo de Iniciativa de Archivos Abiertos para la Recolección de Metadatos que usa xml sobre html. se puede encontrar en: http://www.openarchives.org/Register/BrowseSites

También La Web profunda (también llamado Deepnet, la Web invisible, Web oscuridad o la Web oculta) se refiere al contenido de la World Wide Web que no es parte de la Red de superficie, que está indexado por motores de búsqueda estándar.

Los motores de búsqueda comerciales han comenzado a explorar métodos alternativos para rastrear la Web profunda. El Protocolo de Sitemap (desarrollado por primera vez por Google) y mod oai son mecanismos que permiten a los motores de búsqueda y otras partes interesadas descubrir recursos web profundos en servidores web particulares. Ambos mecanismos permiten que los servidores web anuncien las URL a las que tienen acceso, lo que permite el descubrimiento automático de recursos que no están directamente vinculados a la Web de la superficie. El profundo sistema de superficie web de Google precalcula las presentaciones para cada formulario HTML y agrega las páginas HTML resultantes al índice del motor de búsqueda de Google. Los resultados de la superficie representan miles de consultas por segundo a contenido web profundo. En este sistema, el cálculo previo de las presentaciones se hace usando tres algoritmos:

(1) la selección de valores de entrada para las entradas de búsqueda de texto que aceptan palabras clave,

(2) Identificación de entradas que aceptan solamente los valores de una determinada tipo (por ejemplo, fecha) y

(3) seleccionando un pequeño número de combinaciones de entrada que generan URL adecuadas para su inclusión en el índice de búsqueda web.

+0

La web profunda y la web oscura * no * son lo mismo. – ray

1

Si Google no puede indexar ninguna de estas páginas, ¿qué le hace pensar que una biblioteca de código abierto podrá hacerlo? :)

Dicho esto, hay algunos enlaces en su artículo con respecto al rastreo de la web profunda que puede ser un buen lugar para comenzar a investigar. Aquí hay algunos otros:

+0

El enfoque de Google no es Deep Web: no cuestiono la capacidad potencial sino más bien la aptitud para un propósito. La web profunda es un recurso bastante amplio para obtener información ilícita, relacionada con municiones y otros temas que no serían apropiados para que Google indexe, sin importar el nivel de "búsqueda segura" a la que se los categorizaría como pertenecientes. Por "fuente abierta" me refiero a las iniciativas de repositorio bastante pirateadas, que pueden consultarse a través de algún tipo de API. – luvieere

+0

Municiones, información ilícita ... ¿qué estás tratando de hacer exactamente aquí? –

Cuestiones relacionadas