2010-12-15 15 views
5

Estoy buscando documentación (oficialmente documentación si es posible) para las bibliotecas TagSoup y jTidy.Documentación jTidy y TagSoup

Quiero usar estas bibliotecas para manipular archivos html "tagsoup" que incluyen etiquetas xml con diferentes espacios de nombres mezclados entre etiquetas html (html, xhtml o html5).

He probado HTMLCleaner, NekoHTML y Jericho, pero no encuentro documentación para jTidy y TagSoup, aparte de los ejemplos más simples para borrar un archivo.

necesito documentación acerca de manipular contenidos, vuelva a colocar etiquetas, extraer información, etc ...

Gracias

Nota: Después de la prueba todas las opciones, que utilizan StAX/Woodstox:

+2

D id usted considera [Jsoup] (http://jsoup.org)? No se puede hacer [mejor/más fácil] (http://stackoverflow.com/questions/3152138/what-are-the-pros-and-cons-of-the-leading-java-html-parsers). También tiene un buen [Libro de cocina] (http://jsoup.org/cookbook/). – BalusC

+0

Estoy probando Jsoup. Ella parece fácil pero ve ejemplos de código, parece que no es seguro para subprocesos. estoy en lo correcto? – angelcervera

+0

¿Soy yo o Jsoup no es compatible con el flujo de salida? – slott

Respuesta

2

La respuesta a una pregunta similar en el grupo de amigos tagsoup-Google puede ayudar:

Documentation for TagSoup

Probablemente ya has visto ellos, pero el javadoc para JTidy está disponible aquí: http://jtidy.sourceforge.net/apidocs/index.html

+0

Entonces TagSoup usa SAX API, pero ¿JTidy? :(Gracias – angelcervera

+0

JTidy no, básicamente es algo así como que le das un flujo de entrada, lo analiza y luego obtiene el resultado del flujo de salida. – Gilbeg