Generalmente uso lxml para mis necesidades de análisis de HTML, pero eso no está disponible en Google App Engine. La alternativa obvia es BeautifulSoup, pero creo que se estrangula con demasiada facilidad en HTML mal formado. Actualmente estoy probando libxml2dom y he estado obteniendo mejores resultados.Analizador HTML para GAE
¿Qué analizador HTML de Python puro ha encontrado tiene un mejor rendimiento? Mi prioridad es la capacidad de manejar HTML malo sobre velocidad.
Doh! libxml2 no está incluido en Python en GAE, por lo que libxml2dom está fuera – hoju