Soy completamente nuevo en Python y estoy usando Python 3.1 en Windows (pywin). Necesito analizar algo de HTML, a valores esencialmente extra entre etiquetas HTML específicas y estoy confundido en mi conjunto de opciones, y todo lo que encuentro es adecuado para Python 2.x. He leído críticas sobre Beautiful Soup, HTML5Lib y lxml, pero no puedo encontrar la manera de instalar ninguno de estos en Windows.¿La mejor biblioteca para analizar HTML con Python 3 y ejemplo?
Preguntas:
- Lo analizador HTML recomienda?
- ¿Cómo lo instalo? (Sé amable, soy completamente nuevo en Python y recuerdo que estoy en Windows)
Tienes un ejemplo simple sobre cómo usar la biblioteca recomendada para enganchar HTML de una URL específica y devolver el valor de say algo como esto:
< div class = "foo" > <mesa> <tr> <td> foo </td > </tr > </table > < a class = "link" href = "/ blahblah '> Enlace </a > </div >
(digamos que quieren volver "/ blahblah")
¿Alguna idea de cómo usar el analizador HTML integrado para obtener el contenido de las etiquetas? – Teifion
Beautiful Soup tiene una buena redacción en su estado actual. http://www.crummy.com/software/BeautifulSoup/3.1-problems.html – dyork