Dada la página web de un artículo de noticias (de cualquier fuente de noticias importante como times o bloomberg), quiero identificar el contenido del artículo principal en esa página y arrojar los otros elementos misceláneos como anuncios, menús, barras laterales, comentarios de los usuarios.Web scraping - cómo identificar contenido principal en una página web
¿Cuál es una forma genérica de hacer esto que funcionará en la mayoría de los principales sitios de noticias?
¿Cuáles son algunas buenas herramientas o bibliotecas para la minería de datos? (preferiblemente basado en python)
ver cómo se implementa 'Readability' marcador http://lab.arc90.com/experiments/readability/ – jfs
Un el navegador que hace esto sería una gran amenaza para los anuncios en línea. –
el código del bookmarklet original está aquí: http://code.google.com/p/arc90labs-readability/source/browse/ 'Readability' ahora es un servicio y su código no está disponible. – lsh