¿Puedo usar WGET para generar un mapa del sitio de un sitio web dada su URL?

Necesito una secuencia de comandos que pueda arañar un sitio web y devolver la lista de todas las páginas rastreadas en formato de texto plano o similar; que enviaré a los motores de búsqueda como mapa del sitio. ¿Puedo usar WGET para generar un mapa del sitio de un sitio web? ¿O hay un script PHP que puede hacer lo mismo?¿Puedo usar WGET para generar un mapa del sitio de un sitio web dada su URL?

Fuente

2010-10-16 Salman A

wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com 
sed -n "[email protected]\+ URL:\([^ ]\+\) .\[email protected]\[email protected]" wgetlog.txt | sed "[email protected]&@\&amp;@" > sedlog.txt

Esto crea un archivo llamado sedlog.txt que contiene todos los enlaces que se encuentran en el sitio web especificado. Puede usar PHP o un script de shell para convertir el mapa de sitio del archivo de texto en un mapa del sitio XML. Modifique los parámetros del comando wget (accept/reject/include/exclude) para obtener solo los enlaces que necesita.

Fuente

2011-07-19 13:15:08

+1 No pude usarlo así ya que me estaba dando un montón de errores (probablemente debido a diferentes versiones de wget/sed). Pero una vez que hice algunos ajustes, funcionó a las mil maravillas. ¡Gracias! – Julian

Debe agregar un pequeño retraso entre las solicitudes usando '--wait = 1', de lo contrario, podría afectar el rendimiento del sitio. – Liam

Puede utilizar este script en perl para hacer el truco:

Fuente

2010-10-16 12:58:35

Se generará escaneando el sistema de archivos pero no se "rastreará". Los sitios que quiero arañar son dinámicos. –

¿Puedo usar WGET para generar un mapa del sitio de un sitio web dada su URL?

Respuesta

Cuestiones relacionadas