Estoy trabajando en un pequeño proyecto para analizar el contenido de algunos sitios que me parecen interesantes; este es un verdadero proyecto de bricolaje que estoy haciendo para mi entretenimiento/iluminación, así que me gustaría codificar la mayor cantidad posible por mi cuenta como sea posible.¿Cómo diseñar un robot de rastreo?
Obviamente, voy a necesitar datos para alimentar mi aplicación, y estaba pensando en escribir un pequeño rastreador que tomaría aproximadamente 20k páginas de html y escribirlas en archivos de texto en mi disco duro. Sin embargo, cuando eché un vistazo a SO y otros sitios, no pude encontrar ninguna información sobre cómo hacer esto. ¿Es factible? Parece que hay opciones de código abierto disponibles (¿webpshinx?), Pero me gustaría escribir esto yo mismo si es posible.
Scheme es el único idioma que conozco bien, pero pensé que usaría este proyecto para aprender algo de Java, así que me interesaría si hay alguna biblioteca de java o de raqueta que sería útil para esto. .
Así que supongo que para resumir mi pregunta, ¿cuáles son algunos buenos recursos para comenzar con esto? ¿Cómo puedo hacer que mi rastreador solicite información de otros servidores? ¿Tendré que escribir un analizador simple para esto, o es innecesario dado que quiero tomar todo el archivo html y guardarlo como txt?
no necesita un programa de análisis si no se va a analizar, pero el análisis haría sacando enlaces significativamente más fácil. No estoy seguro de dónde tienes problemas; hay muchos ejemplos disponibles, ¿qué has conseguido hasta ahora? –
¿Tiene la intención de hacer que todos los enchufes funcionen y hable HTTP sin formato a los servidores? ¿O está satisfecho con el uso de herramientas de nivel superior para solicitar URL específicas? (¿Estás más interesado en el lado de la creación de redes o en el lado de análisis de HTML?) – sarnold
Dave, ¿podrías señalar un ejemplo? Eso sería de gran ayuda. Sarnold, nunca he hecho ninguna programación web, solo algunas cosas con el servidor web/módulo insta en racket, que toma una solicitud y produce una respuesta. Así que no estoy seguro de cómo escribir un programa que envíe una respuesta. –