El motor bliki puede hacer esto, en dos pasos. Ver info.bliki.wiki/Home
- Cómo convertir el HTML al texto Mediawiki - texto nediawiki ya es un formato de texto bastante sencillo, pero se puede convertir más
- Cómo convertir texto a texto sin formato Mediawiki - su objetivo.
Se habrá algunas 7-8 líneas de código, así:
// html to wiki
import info.bliki.html.HTML2WikiConverter;
import info.bliki.html.wikipedia.ToWikipedia;
// wiki to plain text
import info.bliki.wiki.filter.PlainTextConverter;
import info.bliki.wiki.model.WikiModel;
...
String sbodyhtml = readFile(infilepath); //get content as string
HTML2WikiConverter conv = new HTML2WikiConverter();
conv.setInputHTML(sbodyhtml);
String resultwiki = conv.toWiki(new ToWikipedia());
WikiModel wikiModel = new WikiModel("${image}", "${title}");
String plainStr = wikiModel.render(new PlainTextConverter(false), resultwiki);
System.out.println(plainStr);
Jsoup puede hacer esto más simple:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
...
Document doc = Jsoup.parse(sbodyhtml);
String plainStr = doc.body().text();
pero en el resultado se pierde todo el formato de párrafo - - No habrá nuevas líneas.
También se menciona [jsoup] (http://jsoup.org/) [aquí] (http://stackoverflow.com/questions/9631477/retrieve-text-from-html-file-in-java), que se distribuye bajo la licencia liberal [MIT] (http://jsoup.org/license). – cubanacan
Por cierto, jsoup admite HTML5 – cubanacan
Al menos según la documentación, no hace lo que le pedí (convierta la página a texto sin formato, NO a manipulación de HTML) –