Quiero sacar algo de información de una página web de fútbol con expresiones regulares de python. El problema es que jugadores como el primer cap, ÄÄRITALO, salen como & # 196; & # 196; RITALO!
Es decir, html usa marcas de escape para los caracteres especiales, como & # 196;Obteniendo caracteres internacionales de una página web?
¿Hay una manera simple de leer el html en la cadena de python correcta? Si fuera XML/XHTML, sería fácil, el analizador lo haría.