¿Qué usar para verificar enlaces html en proyectos grandes, en Linux?

Tengo un directorio con> 1000 archivos .html, y me gustaría revisar todos ellos en busca de enlaces defectuosos, preferiblemente usando la consola. ¿Alguna herramienta que puedas recomendar para tal tarea?¿Qué usar para verificar enlaces html en proyectos grandes, en Linux?

Fuente

2010-03-15 Anonymous

Puede extraer enlaces de archivos html usando el navegador de texto Lynx. Bash scripting alrededor de esto no debería ser difícil.

Fuente

2010-03-15 10:14:52 mouviciel

Lynx puede hacerlo, pero realmente no lo admite. wget es mucho más adecuado para este propósito. – reinierpost

¿Cómo se obtiene wget para generar una lista de enlaces en una página? – Quentin

Es una idea genial. ¿Por qué no lo pensé antes? –

que haría uso de checklink (un proyecto W3C)

Fuente

2010-03-15 10:26:45 Quentin

Siempre que tenga cuidado de configurar el agente de usuario y aceptar encabezados (para evitar códigos de error falsos de detectores de bots) esto debería funcionar. –

Se vería bien, pero definitivamente no está destinado a proyectos tan grandes, no tiene forma de enumerar enlaces rotos, y la salida para mi proyecto es * realmente * grande. –

Pruebe los webgrep herramientas de línea de comandos o, si se siente cómodo con Perl, el módulo HTML::TagReader por el mismo autor.

Fuente

2010-03-15 15:55:09

puede utilizar wget, por ejemplo

wget -r --spider -o output.log http://somedomain.com

en la parte inferior del archivo output.log, se indicará si wget ha encontrado enlaces rotos. Puede analizar eso usando awk/grep

Fuente

2010-03-15 16:04:02 ghostdog74

Puede encontrar una línea de comandos ** wget ** alternativa para buscar enlaces rotos en [esta respuesta] (http://stackoverflow.com/a/15029100/1497596). También tenga en cuenta que un comentario que dejé en esa respuesta proporciona un enlace a ** wget para Windows **. – DavidRR

¿Qué usar para verificar enlaces html en proyectos grandes, en Linux?

Respuesta

Cuestiones relacionadas