2010-02-27 19 views
5

Estoy indexando una lista de enlaces, estos enlaces se actualizan con bastante frecuencia, así que estoy automatizando las miniaturas para los sitios.Scraping para una "vista previa" de una página web - Python

Para la mayoría de los sitios es fácil, ya que acabo de obtener la imagen más grande en la página esperando que describa el contenido.

Pero otras veces hay videos como contenido principal de la página.


¿Alguien tiene consejos para tratar con esto? ¡Eso seria genial!


En cuanto al uso de Webkit para crear capturas de pantalla que found this

Respuesta

3

wkhtmltopdf utiliza una copia incrustada del motor de render WebKit (usado en Safari, Chrome, etc.) para guardar una página web a PDF, incluyendo todas las imágenes (sin video en Flash, supongo) Ese podría ser un punto de partida para una miniatura mucho más precisa.

+0

+1 buen punto de partida. –

+0

Esta es una gran idea. Veré lo que puedo encontrar. Sería ** Genial ** si pudiera entender cómo usar esto. – RadiantHex

3

Existen servicios (gratuitos y de pago) que hacen exactamente lo que necesita. Yo uso shrink the web:

Cuestiones relacionadas