Estoy intentando descargar un espejo estático de una wiki usando wget. Solo quiero la última versión de cada artículo (no el historial completo o diferencias entre las versiones). Sería fácil simplemente descargar todo y eliminar páginas innecesarias más tarde, pero hacerlo llevaría demasiado tiempo y provocaría una tensión innecesaria en el servidor.wget WIKI, no obtengas páginas de diferencias (¿excluir por regex?)
Hay una serie de páginas que claramente no necesito, tales como:?
WhoIsDoingWhat acción = dif & date = 1184177979
¿Hay una manera de decir que no wget para descargar y recursivamente en las direcciones URL que tienen 'action = diff' en ellos? ¿O excluir URLs que coincidan con algunas expresiones regulares?
Parece que hacer eso descargará la página, la rechazará y luego la eliminará (en lugar de saltar para descargarla por completo). – stonea
Aunque evitará la recurrencia en la página rechazada. – stonea
No veo evidencia de eso. "La opción '--reject' funciona de la misma manera que '--accept', solo su lógica es la inversa, Wget descargará todos los archivos excepto los que coincidan con los sufijos (o patrones) en la lista". (-R es lo mismo que --reject y --rejlist.) Eso parece indicar claramente que no descargará patrones coincidentes. – chaos