2010-01-29 12 views
5

Generalmente uso lxml para mis necesidades de análisis de HTML, pero eso no está disponible en Google App Engine. La alternativa obvia es BeautifulSoup, pero creo que se estrangula con demasiada facilidad en HTML mal formado. Actualmente estoy probando libxml2dom y he estado obteniendo mejores resultados.Analizador HTML para GAE

¿Qué analizador HTML de Python puro ha encontrado tiene un mejor rendimiento? Mi prioridad es la capacidad de manejar HTML malo sobre velocidad.

+0

Doh! libxml2 no está incluido en Python en GAE, por lo que libxml2dom está fuera – hoju

Respuesta

5

Desde el BeautifulSoup documentation:

Versión 3.1.0 Hermoso de sopa hace significativamente peor en HTML en el mundo real que la versión 3.0.8 no

Por lo tanto, podría ayudarle a utilizar este version anterior. Eso es precisamente lo que recomienda el autor.

Puede pretender que Beautiful Soup versión 3.1.0 nunca se lanzó. La versión 3.0.8 todavía funciona bien en Python 2.3 a 2.6.

+0

Gracias por eso, obtuve un mejor rendimiento con 3.0.8 pero aún así no se pudo analizar la página web de manera útil. También el autor de BS ha perdido interés en desarrollarlo aún más así que es mejor invertir tiempo en otro lado. – hoju