2010-11-01 7 views
5

Quiero guardar el texto que raspe de varias fuentes sin las etiquetas HTML que están en él, pero también manteniendo la mayor cantidad posible de la estructura.¿Existe una API decente de HTML a Markdown personalizable y personalizable?

Markdown parece ser la solución a esto (o posiblemente MultiMarkdown).

Hay a question que ofrece una sugerencia sobre la conversión de HTML a rebajara, pero quiero especificar algunas cosas específicas:

  • todos los enlaces (incluyendo imágenes) se hace referencia en el final solamente (es decir, no hay URL en línea)
  • nO HTML embebido (ni siquiera estoy 100% seguro todavía cómo me gustaría para hacer frente a difíciles HTML ... pero no va a ser embebido!)

Así que mi pregunta es como se declarado en el título: ¿Hay un HTML decente, personalizable, para Markdown J? ava API?

Respuesta

2

Usted podría intentar adaptar HtmlCleaner que proporciona una interfaz viable en el DOM:

TagNode root = htmlCleaner.clean(stream); 
Object[] found = root.evaluateXPath("//div[id='something']"); 
if(found.length > 0 && found instanceof TagNode) { 
    ((TagNode)found[0]).removeFromTree(); 
} 

Esto le permitiría a la estructura de su flujo de salida en cualquier formato que desee mediante una API bastante simple.

Cuestiones relacionadas