2008-08-25 12 views

Respuesta

12

NekoHTML, TagSoup y JTidy le permitirá analizar HTML y después del proceso con herramientas XML, como XPath.

+0

XPath es el camino para el análisis de HTML, ayuda en el caso de HTML mal formado, así como regex falla. –

7

He intentado HTML Parser que es muy simple.

+0

He utilizado HTML parser en un proyecto y funcionó exactamente como esperaba –

+1

pero no hay muchos tutoriales disponibles ... – Lily

+0

He notado una gran cantidad de fragmentos de JavaScript (y atributos de elementos) que se arrastran hacia mi supuestamente "nodo de texto" "extracciones" También ha habido algunos casos en los que el formato incorrecto de HTML provocó el error de toda la operación de análisis. Así que estoy buscando reemplazar la biblioteca htmlparser en mi propio proyecto con algo un poco mejor. – benjismith

1

¿Necesita hacer un análisis completo del HTML? Si solo busca valores específicos dentro de los contenidos (un tag/param específico), entonces una expresión regular simple podría ser suficiente, y podría muy bien ser más rápida.