Necesito buscar el árbol DOM de un documento HTML analizado.Cómo analizar HTML mal formado en python
estoy usando uTidyLib antes de analizar la cadena con lxml
a = tidy.parseString (html_code, opciones) dom = etree.fromstring (str (a))
a veces me sale un error , parece que tidylib no puede reparar html malformado.
¿cómo puedo analizar todos los archivos HTML sin obtener un error (analizando solo algunas partes de los archivos que no se pueden reparar)?
+1, ElementSoup es una excelente alternativa aquí. –
Los enlaces estaban rotos; los editó. Es de esperar que las nuevas ubicaciones contengan el mismo contenido al que originalmente apuntabas. – tripleee
Si no tiene una hermosa sopa instalada, es posible que la necesite para Element Soup. Simplemente haz 'pip install beautifulsoup' – BobTuckerman