Tengo una base de datos completa de pequeños documentos HTML y tengo que insertar mediante programación varios en, digamos, un documento PDF con iText o un documento de Word con Aspose.Words. Necesito preservar cualquier formateo dentro de los documentos HTML (dentro de lo razonable, honrar <b> etiquetas es imprescindible, CSS como < span style = "blah" > es una buena idea para tener).¿Cómo programáticamente inspeccionar un documento HTML
Tanto iText y Aspose trabajo (más o menos) a lo largo de las líneas:
Document document = new Document(Size.A4, Aspect.PORTRAIT);
document.setFont("Helvetica", 20, Font.BOLD);
document.insert("some string")
document.setBold(true);
document.insert("A bold string");
Por lo tanto (creo) que necesitan algún tipo de analizador de HTML que será puedo inspeccionar para cuerdas y estilos para insertar en mi documento.
¿Alguien puede sugerir una buena biblioteca o un enfoque sensato para este problema? La plataforma es Java
Esta sugerencia me permitió construir una versión rudimentaria de lo que quiero en aproximadamente una hora y alrededor de 100 líneas de código. ¡Eres un ganador! – banjollity