Necesito una secuencia de comandos que pueda arañar un sitio web y devolver la lista de todas las páginas rastreadas en formato de texto plano o similar; que enviaré a los motores de búsqueda como mapa del sitio. ¿Puedo usar WGET para generar un mapa del sitio de un sitio web? ¿O hay un script PHP que puede hacer lo mismo?¿Puedo usar WGET para generar un mapa del sitio de un sitio web dada su URL?
7
A
Respuesta
30
wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com
sed -n "[email protected]\+ URL:\([^ ]\+\) .\[email protected]\[email protected]" wgetlog.txt | sed "[email protected]&@\&@" > sedlog.txt
Esto crea un archivo llamado sedlog.txt
que contiene todos los enlaces que se encuentran en el sitio web especificado. Puede usar PHP o un script de shell para convertir el mapa de sitio del archivo de texto en un mapa del sitio XML. Modifique los parámetros del comando wget (accept/reject/include/exclude) para obtener solo los enlaces que necesita.
1
Puede utilizar este script en perl para hacer el truco:
+0
Se generará escaneando el sistema de archivos pero no se "rastreará". Los sitios que quiero arañar son dinámicos. –
Cuestiones relacionadas
- 1. Generar un mapa del sitio visual de un sitio existente
- 2. Mapa del sitio en un sitio web altamente dinámico
- 3. ¿Puedo usar HTML5 Now para crear un sitio web?
- 4. ¿Puedo usar UML para modelar la navegación del sitio web
- 5. ¿Cuál es la mejor manera de generar un mapa del sitio?
- 6. evaluación comparativa de un sitio web asp.net, ¿puedo usar jmeter?
- 7. ¿Mapa del sitio para contenido dinámico?
- 8. obtener miniaturas de un sitio web desde sus direcciones URL
- 9. ¿Cómo puedo recuperar el favicon de un sitio web?
- 10. ¿Qué herramientas de Python puedo usar para interactuar con la API de un sitio web?
- 11. Medición en un sitio web
- 12. JavaScript hit counter para un sitio web
- 13. ¿Cómo se encuentra la imagen "principal" de un sitio web, dada la URL?
- 14. ¿Cómo recupero una URL de un sitio web usando Java?
- 15. ¿Recomendación de CakePHP para iterar una tabla enorme y generar un mapa del sitio?
- 16. ¿Cómo puedo cambiar la URL de la publicación del blog de un sitio web de Jekyll?
- 17. ¿Utilizas Silverlight para un sitio web completo?
- 18. Cómo obtener la URL base de un sitio web externo
- 19. ¿Obtener la URL del sitio web desde Application_Start?
- 20. Técnicas para escribir un sitio web escalable
- 21. ¿Qué forma debo usar para hacer un sitio web?
- 22. ¿qué doctype debería usar para un sitio web móvil?
- 23. Uso de WiX para generar un instalador para un sitio web ASP.Net MVC
- 24. Raspe un sitio web dinámico
- 25. ¿Navegación URL en un sitio web basado en AJAX?
- 26. Mapa del sitio dinámico en ASP.NET MVC
- 27. Google API | URL al título del sitio
- 28. ¿Cómo deletreas revisas un sitio web?
- 29. Rascar todo un sitio web
- 30. ¿Cómo descargar todos los archivos (pero no HTML) de un sitio web usando wget?
+1 No pude usarlo así ya que me estaba dando un montón de errores (probablemente debido a diferentes versiones de wget/sed). Pero una vez que hice algunos ajustes, funcionó a las mil maravillas. ¡Gracias! – Julian
Debe agregar un pequeño retraso entre las solicitudes usando '--wait = 1', de lo contrario, podría afectar el rendimiento del sitio. – Liam