¿Existe alguna biblioteca de código abierto que se pueda usar para buscar en el Deep Web?¿Existe alguna biblioteca de código abierto que se pueda usar para buscar en Deep Web?
Respuesta
hay un Protocolo de Iniciativa de Archivos Abiertos para la Recolección de Metadatos que usa xml sobre html. se puede encontrar en: http://www.openarchives.org/Register/BrowseSites
También La Web profunda (también llamado Deepnet, la Web invisible, Web oscuridad o la Web oculta) se refiere al contenido de la World Wide Web que no es parte de la Red de superficie, que está indexado por motores de búsqueda estándar.
Los motores de búsqueda comerciales han comenzado a explorar métodos alternativos para rastrear la Web profunda. El Protocolo de Sitemap (desarrollado por primera vez por Google) y mod oai son mecanismos que permiten a los motores de búsqueda y otras partes interesadas descubrir recursos web profundos en servidores web particulares. Ambos mecanismos permiten que los servidores web anuncien las URL a las que tienen acceso, lo que permite el descubrimiento automático de recursos que no están directamente vinculados a la Web de la superficie. El profundo sistema de superficie web de Google precalcula las presentaciones para cada formulario HTML y agrega las páginas HTML resultantes al índice del motor de búsqueda de Google. Los resultados de la superficie representan miles de consultas por segundo a contenido web profundo. En este sistema, el cálculo previo de las presentaciones se hace usando tres algoritmos:
(1) la selección de valores de entrada para las entradas de búsqueda de texto que aceptan palabras clave,
(2) Identificación de entradas que aceptan solamente los valores de una determinada tipo (por ejemplo, fecha) y
(3) seleccionando un pequeño número de combinaciones de entrada que generan URL adecuadas para su inclusión en el índice de búsqueda web.
La web profunda y la web oscura * no * son lo mismo. – ray
Si Google no puede indexar ninguna de estas páginas, ¿qué le hace pensar que una biblioteca de código abierto podrá hacerlo? :)
Dicho esto, hay algunos enlaces en su artículo con respecto al rastreo de la web profunda que puede ser un buen lugar para comenzar a investigar. Aquí hay algunos otros:
- Deep Web Research tiene MUCHAS referencias útiles.
- deepwebtech.com afirma tener un motor de búsqueda web profundo, aunque actualmente no funciona.
El enfoque de Google no es Deep Web: no cuestiono la capacidad potencial sino más bien la aptitud para un propósito. La web profunda es un recurso bastante amplio para obtener información ilícita, relacionada con municiones y otros temas que no serían apropiados para que Google indexe, sin importar el nivel de "búsqueda segura" a la que se los categorizaría como pertenecientes. Por "fuente abierta" me refiero a las iniciativas de repositorio bastante pirateadas, que pueden consultarse a través de algún tipo de API. – luvieere
Municiones, información ilícita ... ¿qué estás tratando de hacer exactamente aquí? –
- 1. ¿Existe alguna biblioteca de código abierto para ayudar a leer los archivos binarios compilados de Microsoft?
- 2. ¿Existe una biblioteca de registro distribuido de código abierto?
- 3. ¿Hay alguna biblioteca de memoria temporal jerárquica de código abierto?
- 4. ¿Existe una biblioteca de código abierto WebSockets (JavaScript) XMPP?
- 5. ¿Existe alguna manera de que Rails 3.0.x pueda usar de forma predeterminada Thin?
- 6. ¿Existe una SqlConnection existente que pueda usar en LinqPad?
- 7. biblioteca zip de código abierto para .NET?
- 8. Cualquier biblioteca java de código abierto que pueda analizar un archivo EDI en estándares ANSI x12 y UN/EDIFACT?
- 9. ¿Existe una API de Subversion que se pueda usar para programar en .NET
- 10. ¿Existe una biblioteca js que pueda generar una paleta de colores a partir de una imagen?
- 11. ¿Existe un buen código abierto xml ide?
- 12. ¿Existe un repositorio centralizado de código abierto para C#?
- 13. ¿Hay alguna biblioteca de código abierto de C/C++ para las transformaciones de Content Aware Image?
- 14. subclases de una biblioteca de código abierto
- 15. ¿Dónde ir a buscar proyectos de código abierto para trabajar?
- 16. ¿Servidor web mínimo de código abierto?
- 17. ¿Existe una administración basada en web de código abierto para el servidor MS SQL?
- 18. Tecnología de inserción: ¿Existe alguna implementación de código abierto para Windows
- 19. ¿Existe alguna función que pueda calcular una puntuación para secuencias alineadas dados los parámetros de alineación?
- 20. ¿Existe un atributo que pueda agregar a una clase para que se edite como código, no en el diseñador?
- 21. Biblioteca de reconocimiento de voz de código abierto en Java
- 22. ¿Existe una biblioteca de código abierto de OCR o sdk (gratuita) para Android y iOS?
- 23. Biblioteca de CoverFlow de código abierto para iPhone
- 24. ¿Hay alguna herramienta que pueda incorporar CSS?
- 25. ¿Existe un identificador único de computadora que se pueda usar confiablemente incluso en una máquina virtual?
- 26. ¿Existe una buena biblioteca de equilibrio de carga abstracta de código abierto para Java?
- 27. ¿Existe un componente de terminal GTK que se pueda usar en Windows?
- 28. Biblioteca Java de código abierto para producir miniaturas de páginas web del lado del servidor
- 29. ¿Qué se puede usar para que una aplicación pueda recibir mensajes SMS?
- 30. OCR de código abierto
¿Está más interesado en los datos o las API para recopilar los datos? – Steve
Me interesan las API. – luvieere
Pregunta muy interesante (+1), pero me temo que solo tendrás que escribirla tú mismo (espero que puedas probar que estoy equivocado). – Phil