Tengo un directorio con> 1000 archivos .html, y me gustaría revisar todos ellos en busca de enlaces defectuosos, preferiblemente usando la consola. ¿Alguna herramienta que puedas recomendar para tal tarea?¿Qué usar para verificar enlaces html en proyectos grandes, en Linux?
Respuesta
Puede extraer enlaces de archivos html usando el navegador de texto Lynx. Bash scripting alrededor de esto no debería ser difícil.
que haría uso de checklink (un proyecto W3C)
Siempre que tenga cuidado de configurar el agente de usuario y aceptar encabezados (para evitar códigos de error falsos de detectores de bots) esto debería funcionar. –
Se vería bien, pero definitivamente no está destinado a proyectos tan grandes, no tiene forma de enumerar enlaces rotos, y la salida para mi proyecto es * realmente * grande. –
Pruebe los webgrep herramientas de línea de comandos o, si se siente cómodo con Perl, el módulo HTML::TagReader por el mismo autor.
puede utilizar wget
, por ejemplo
wget -r --spider -o output.log http://somedomain.com
en la parte inferior del archivo output.log, se indicará si wget
ha encontrado enlaces rotos. Puede analizar eso usando awk/grep
Puede encontrar una línea de comandos ** wget ** alternativa para buscar enlaces rotos en [esta respuesta] (http://stackoverflow.com/a/15029100/1497596). También tenga en cuenta que un comentario que dejé en esa respuesta proporciona un enlace a ** wget para Windows **. – DavidRR
- 1. Cómo usar #include en proyectos grandes?
- 2. CakePHP para grandes proyectos
- 3. Uso de Emacs para grandes proyectos grandes
- 4. Emacs tutorial para proyectos grandes
- 5. ¿Los genéricos en D2009 se pueden usar en proyectos grandes?
- 6. Grandes proyectos basados en Lisp
- 7. Uso de Firebird en grandes proyectos
- 8. Mejores prácticas de IoC en proyectos grandes
- 9. ¿Sugerencias para organizar proyectos Android más grandes?
- 10. Guía para organizar grandes proyectos de Django
- 11. Cómo refactorizar grandes proyectos en visual studio
- 12. ¿Cómo combinar grandes proyectos en Eclipse?
- 13. Mejores prácticas para el formato de código en proyectos grandes
- 14. Gestión de dependencias para grandes proyectos
- 15. Mantenimiento de recursos (resx) en grandes proyectos
- 16. Cómo centrar enlaces en HTML
- 17. Crear enlaces en lienzo HTML
- 18. ¿Qué se debe usar para verificar la identidad en C++?
- 19. ¿Cómo planificar grandes proyectos de software?
- 20. ¿Qué debo usar para eliminar html escapado de grandes conjuntos de datos?
- 21. ¿En qué se diferencia Spring Data JPA de Hibernate para proyectos grandes?
- 22. Qué tipo de datos de columna debo usar para almacenar grandes cantidades de texto o html
- 23. html para archivos de música en Linux
- 24. HTML Treebuilder XPath para extraer enlaces
- 25. Enlaces HTML y usabilidad
- 26. Usar jQuery para seleccionar enlaces visitados
- 27. Política de encabezado C++ en proyectos grandes (redux)
- 28. Superación de las limitaciones de C para proyectos grandes
- 29. ¿Qué puedo usar para sustituir en HTML?
- 30. ¿Qué software Linux/Unix usar para convertir html o pdf a doc?
Lynx puede hacerlo, pero realmente no lo admite. wget es mucho más adecuado para este propósito. – reinierpost
¿Cómo se obtiene wget para generar una lista de enlaces en una página? – Quentin
Es una idea genial. ¿Por qué no lo pensé antes? –