Estoy tratando de crear un analizador de HTML generalizado que funcione bien en publicaciones de blog. Quiero señalar mi analizador en la URL específica de la entrie y recuperar el texto limpio de la publicación. Mi enfoque básico (de Python) ha sido utilizar una combinación de BeautifulSoup/Urllib2, lo cual está bien, pero se supone que usted conoce las etiquetas adecuadas para la entrada del blog. Alguien tiene mejores ideas?Crear un gran analizador - Extraer texto relevante de HTML/Blogs
Aquí hay algunos pensamientos que tal vez alguien podría ampliar, que aún no tengo suficientes conocimientos/know-how para implementar.
El programa Unix 'lince' Parece que analizar las entradas del blog especialmente bien - lo analizador usan ellos, o cómo podría esto ser utilizada?
¿Hay servicios/analizadores que eliminan automáticamente los anuncios basura, etc.?
En este caso, tenía una vaga noción de que puede ser una buena suposición que las publicaciones de blog usualmente están contenidas en cierta etiqueta definitoria con class = "entry" o algo similar. Por lo tanto, es posible crear un algoritmo que encuentre las etiquetas adjuntas con el texto más limpio entre ellas, ¿alguna idea al respecto?
Gracias!
Lynx usa su propio analizador de tags. El código fuente está disponible. – Quentin