2011-08-17 9 views
5

Me gustaría cargar una página web y guardarla usando la línea de comando (quiero obtener un comportamiento similar que obtenemos para la página de guardado como para una página completa en firefox o chrome.)Renderizando una página html y guardándola usando la línea de comando

He intentado usar wget y httrack, me dan los archivos html correctamente. Pero en el caso de un html con formato incorrecto, el navegador lo corrige durante la renderización y el uso de guardar, ya que allí obtenemos el html corregido, pero esto no sucede en el caso de wget o htttrack.

¿Hay alguna herramienta que represente la página y guarde la página junto con todas las imágenes y el flash y todo lo demás en local.

+0

Firefox se puede utilizar desde la línea de comandos. sin embargo, no puedo obtener una opción para guardar la página. Algunas ideas...? –

Respuesta

2

Cuando quiero guardar páginas para usar sin conexión, utilizo un complemento de Firefox llamado "Scrapbook". Eso, por supuesto, no permite su requerimiento de línea de comando. Pero si usa una herramienta como 'htmlunit' o algo así, puede conducir el navegador Firefox para ir a la página que desea guardar.

0

Hay algo de un sofisticado software disponibles que hace exactamente eso: https://launchpad.net/shotfactory

+0

esto se utiliza para capturar la captura de pantalla que no es algo que estoy buscando –

1

Usted podría utilizar curl o wget en combinación con tidyhtml, es decir

curl http://stackoverflow.com > page.html 
    tidy page.html > page_clean.html 

ordenado debe ser capaz de convertir cualquier tipo de código HTML no válido a XTML válido

+0

No, incluso eso no me ayuda ... –

1

No pude encontrar nada más, así que finalmente terminé por abrir la página en firefox y hacer clic en el botón Guardar como y guardarla. Escribí un script usando Firefox y xdotools para automatizar toda la tarea.

Gracias por toda la ayuda y amigos de vistas.

Cuestiones relacionadas