2010-10-22 12 views
5

Tenemos el requisito de almacenar en caché las páginas web con la mayor precisión posible, de modo que podamos retroceder y ver una versión de una página en cualquier momento anterior. Nos gustaría poder ver la página como realmente era: con el CSS correcto, javascript, imágenes, etc.Guardar una página web y activos vinculados externamente como un recurso estático independiente

¿Hay alguna biblioteca de sistema operativo (cualquier idioma) que busque una página, descargue todas las conexiones externas activos y volver a escribir los enlaces, ya que apuntan a los activos localmente en caché?

¿O es este un caso de rodar el nuestro?

Gracias

Editar: que dan cuenta de que sin necesidad de generar enlaces generados dinámicamente, etc., que esto no va a ser posible 100% a menos que hagamos DOM prestación. Sin embargo, por el momento, probablemente podamos vivir sin esto.

+0

Richard, elija la respuesta correcta, o díganos lo que todavía necesita que las soluciones presentadas no lo hagan. –

Respuesta

1

¿por qué no aplicar un href base a las páginas, reemplazar los enlaces absolutos internos con absolutos relativos y mantener la estructura?

9

que sugieren HTTrack: http://www.httrack.com/

Debido a que el software es libre, de código abierto, y es compatible con la interfaz de línea de comandos visual y, creo que se puede integrar o personalizar a sus necesidades sin problemas.

Ver la descripción:

"HTTrack te permite descargar un sitio World Wide Web de Internet a un directorio local, construyendo recursivamente todos los directorios, consiguiendo HTML, imágenes y otros archivos desde el servidor a su computadora

Organiza la estructura de enlaces relativa del sitio original Simplemente abra una página del sitio web "reflejado" en su navegador, y puede navegar por el sitio de un enlace a otro, como si lo estuviera viendo en línea.

También puede actualizar una exis un sitio duplicado y reanudar las descargas interrumpidas ".

En qué sistema operativo se puede ejecutar:

WebHTTrack para Linux/Unix/BSD: Debian, Ubuntu, Gentoo, paquete RPM (Mandriva & RedHat), OSX (MacPorts), Fedora y FreeBSD paquetes i386.

WinHTTrack para Windows 2000/XP/Vista/Seven

-

actualización: el proyecto está activo y la última versión se presentó en 04/01/2017

+0

Richard, ¿esta respuesta satisface sus necesidades? –

0

Puede usar el formato mht/mhtml para guardarlo como un documento unificado.

descripción Wiki: http://en.wikipedia.org/wiki/MHTML

Una búsqueda rápida revelará algunas fuentes de código para hacer esto.

Cuestiones relacionadas