Tengo un par de sitios web de agregación de noticias de Twitter. He estado planeando agregar imágenes de artículos que encuentro en Twitter.Extrayendo * imagen * relevante de una página web
Si descargo la página y extraigo la imagen usando la etiqueta <img>
, obtengo un montón de imágenes; no todos ellos relevantes para el artículo. Por ejemplo, se capturan imágenes de botones, iconos, anuncios, etc. ¿Cómo extraigo la imagen que acompaña al artículo? Sé que hay una solución: el usuario del enlace de Facebook lo hace bastante bien.
Mithun
Duplicado de: How to find and extract "main" image in website
Bueno OGP es algo que Facebook está empujando para que puedan extraer los meta-datos con precisión. Desafortunadamente, una gran cantidad de sitios web no siguen este estándar. – mithun