¿Existe alguna biblioteca de código abierto que se pueda usar para buscar en Deep Web?

¿Existe alguna biblioteca de código abierto que se pueda usar para buscar en el Deep Web?¿Existe alguna biblioteca de código abierto que se pueda usar para buscar en Deep Web?

Fuente

2009-11-30 luvieere

¿Está más interesado en los datos o las API para recopilar los datos? – Steve

Me interesan las API. – luvieere

Pregunta muy interesante (+1), pero me temo que solo tendrás que escribirla tú mismo (espero que puedas probar que estoy equivocado). – Phil

hay un Protocolo de Iniciativa de Archivos Abiertos para la Recolección de Metadatos que usa xml sobre html. se puede encontrar en: http://www.openarchives.org/Register/BrowseSites

También La Web profunda (también llamado Deepnet, la Web invisible, Web oscuridad o la Web oculta) se refiere al contenido de la World Wide Web que no es parte de la Red de superficie, que está indexado por motores de búsqueda estándar.

Los motores de búsqueda comerciales han comenzado a explorar métodos alternativos para rastrear la Web profunda. El Protocolo de Sitemap (desarrollado por primera vez por Google) y mod oai son mecanismos que permiten a los motores de búsqueda y otras partes interesadas descubrir recursos web profundos en servidores web particulares. Ambos mecanismos permiten que los servidores web anuncien las URL a las que tienen acceso, lo que permite el descubrimiento automático de recursos que no están directamente vinculados a la Web de la superficie. El profundo sistema de superficie web de Google precalcula las presentaciones para cada formulario HTML y agrega las páginas HTML resultantes al índice del motor de búsqueda de Google. Los resultados de la superficie representan miles de consultas por segundo a contenido web profundo. En este sistema, el cálculo previo de las presentaciones se hace usando tres algoritmos:

(1) la selección de valores de entrada para las entradas de búsqueda de texto que aceptan palabras clave,

(2) Identificación de entradas que aceptan solamente los valores de una determinada tipo (por ejemplo, fecha) y

(3) seleccionando un pequeño número de combinaciones de entrada que generan URL adecuadas para su inclusión en el índice de búsqueda web.

Fuente

2010-02-17 11:59:11

La web profunda y la web oscura * no * son lo mismo. – ray

Si Google no puede indexar ninguna de estas páginas, ¿qué le hace pensar que una biblioteca de código abierto podrá hacerlo? :)

Dicho esto, hay algunos enlaces en su artículo con respecto al rastreo de la web profunda que puede ser un buen lugar para comenzar a investigar. Aquí hay algunos otros:

Deep Web Research tiene MUCHAS referencias útiles.
deepwebtech.com afirma tener un motor de búsqueda web profundo, aunque actualmente no funciona.

Fuente

2009-11-30 22:05:13

El enfoque de Google no es Deep Web: no cuestiono la capacidad potencial sino más bien la aptitud para un propósito. La web profunda es un recurso bastante amplio para obtener información ilícita, relacionada con municiones y otros temas que no serían apropiados para que Google indexe, sin importar el nivel de "búsqueda segura" a la que se los categorizaría como pertenecientes. Por "fuente abierta" me refiero a las iniciativas de repositorio bastante pirateadas, que pueden consultarse a través de algún tipo de API. – luvieere

Municiones, información ilícita ... ¿qué estás tratando de hacer exactamente aquí? –

¿Existe alguna biblioteca de código abierto que se pueda usar para buscar en Deep Web?

Respuesta

Cuestiones relacionadas