Estoy buscando documentación (oficialmente documentación si es posible) para las bibliotecas TagSoup y jTidy.Documentación jTidy y TagSoup
Quiero usar estas bibliotecas para manipular archivos html "tagsoup" que incluyen etiquetas xml con diferentes espacios de nombres mezclados entre etiquetas html (html, xhtml o html5).
He probado HTMLCleaner, NekoHTML y Jericho, pero no encuentro documentación para jTidy y TagSoup, aparte de los ejemplos más simples para borrar un archivo.
necesito documentación acerca de manipular contenidos, vuelva a colocar etiquetas, extraer información, etc ...
Gracias
Nota: Después de la prueba todas las opciones, que utilizan StAX/Woodstox:
D id usted considera [Jsoup] (http://jsoup.org)? No se puede hacer [mejor/más fácil] (http://stackoverflow.com/questions/3152138/what-are-the-pros-and-cons-of-the-leading-java-html-parsers). También tiene un buen [Libro de cocina] (http://jsoup.org/cookbook/). – BalusC
Estoy probando Jsoup. Ella parece fácil pero ve ejemplos de código, parece que no es seguro para subprocesos. estoy en lo correcto? – angelcervera
¿Soy yo o Jsoup no es compatible con el flujo de salida? – slott