2012-03-02 7 views
6

Quiero hacer un código para extraer las noticias principales de un sitio web de noticias. Los sitios web de noticias contienen las principales noticias, anuncios, reseñas, avisos de derechos de autor, por lo que quiero obtener solo las noticias principales como las realizadas en boilerpipe, pero quiero saber cómo hacerlo.Extracción del contenido principal (la densidad de texto más alta) De un artículo de noticias Página web

Así que quiero tener información sobre cómo funciona el proceso para hacer esto.

Sudhanshu

Respuesta

8

los sitios web boilerpipe contiene el código fuente, instrucciones de inicio rápido, paradas de artículo científico original y a la correspondiente vídeo de presentación de la conferencia:

http://code.google.com/p/boilerpipe/

Esto debería darle un conjunto bastante completo de información sobre cómo funciona esto y cómo puede aplicar esto en su escenario.

mejor,

Cristiano

0

JSOUP proporciona una API para analizar HTML

0

le daría una oportunidad htmlcleaner.

HTMLCleaner es la biblioteca de Java utilizada para analizar de forma segura y transformar cualquier HTML encontrado en la web en XML bien formado. Está diseñado para ser pequeño, rápido, flexible e independiente. HtmlCleaner se puede usar en código Java, como herramienta de línea de comandos o como tarea Ant. El resultado del análisis es un modelo de objeto de documento liviano que puede transformarse fácilmente a estándares como DOM o JDom, o ser serializado a salida XML de varias maneras (compacto, bonito impreso, etc.).

Puede utilizar XPath con htmlcleaner para obtener contenidos dentro xml/html tags.Here es un buen ejemplo
Xpath Example

2

Tratamos muchos rastreadores de código abierto, como la legibilidad, sopa, etc. Hermoso por el mismo, pero después de probar Diffbot API decidimos utilizarlo para AppMarkt. Rápido y extrae artículos de noticias muy bien de varios idiomas.

Cuestiones relacionadas