Estoy tratando de usar html5lib para analizar una página html en algo que puedo consultar con xpath. html5lib tiene documentación casi nula y he pasado demasiado tiempo tratando de resolver este problema. objetivo final es sacar la segunda fila de una tabla:¿Cómo puedo analizar HTML con html5lib y consultar el HTML analizado con XPath?
<html>
<table>
<tr><td>Header</td></tr>
<tr><td>Want This</td></tr>
</table>
</html>
Así que vamos a probarlo:
>>> doc = html5lib.parse('<html><table><tr><td>Header</td></tr><tr><td>Want This</td> </tr></table></html>', treebuilder='lxml')
>>> doc
<lxml.etree._ElementTree object at 0x1a1c290>
que se ve bien, vamos a ver qué más tenemos:
>>> root = doc.getroot()
>>> print(lxml.etree.tostring(root))
<html:html xmlns:html="http://www.w3.org/1999/xhtml"><html:head/><html:body><html:table><html:tbody><html:tr><html:td>Header</html:td></html:tr><html:tr><html:td>Want This</html:td></html:tr></html:tbody></html:table></html:body></html:html>
LOL WUT?
en serio. Estaba planeando usar algún xpath para obtener los datos que quiero, pero parece que no funciona. ¿Entonces Que puedo hacer? Estoy dispuesto a probar diferentes bibliotecas y enfoques.
creo que la solicitud era para una solución de Python. –