2010-03-15 6 views

Respuesta

0

Puede extraer enlaces de archivos html usando el navegador de texto Lynx. Bash scripting alrededor de esto no debería ser difícil.

+0

Lynx puede hacerlo, pero realmente no lo admite. wget es mucho más adecuado para este propósito. – reinierpost

+0

¿Cómo se obtiene wget para generar una lista de enlaces en una página? – Quentin

+0

Es una idea genial. ¿Por qué no lo pensé antes? –

2

que haría uso de checklink (un proyecto W3C)

+0

Siempre que tenga cuidado de configurar el agente de usuario y aceptar encabezados (para evitar códigos de error falsos de detectores de bots) esto debería funcionar. –

+0

Se vería bien, pero definitivamente no está destinado a proyectos tan grandes, no tiene forma de enumerar enlaces rotos, y la salida para mi proyecto es * realmente * grande. –

0

Pruebe los webgrep herramientas de línea de comandos o, si se siente cómodo con Perl, el módulo HTML::TagReader por el mismo autor.

4

puede utilizar wget, por ejemplo

wget -r --spider -o output.log http://somedomain.com 

en la parte inferior del archivo output.log, se indicará si wget ha encontrado enlaces rotos. Puede analizar eso usando awk/grep

+0

Puede encontrar una línea de comandos ** wget ** alternativa para buscar enlaces rotos en [esta respuesta] (http://stackoverflow.com/a/15029100/1497596). También tenga en cuenta que un comentario que dejé en esa respuesta proporciona un enlace a ** wget para Windows **. – DavidRR

Cuestiones relacionadas