¿Alguien sabe de una biblioteca de código abierto de Java que hará la diferencia robusta de las partes de texto de los archivos de pdf?Biblioteca de Java Pdf Diff
Idealmente me gustaría algo que produciría un diff en forma de un parche.
¿Alguien sabe de una biblioteca de código abierto de Java que hará la diferencia robusta de las partes de texto de los archivos de pdf?Biblioteca de Java Pdf Diff
Idealmente me gustaría algo que produciría un diff en forma de un parche.
Extraiga el texto en pdf con http://incubator.apache.org/pdfbox/ y cree un diff con http://code.google.com/p/google-diff-match-patch.
Si los PDF son diferentes solo en texto, también podría rasterizar las páginas y luego observar las diferencias de esa manera: lo usamos para la prueba de regresión en nuestro código PDF.
¿Hay alguna biblioteca o código para rasterizar un archivo PDF? También en rasterizar, ¿el resultado siempre será el mismo en términos de un hash MD5/SHA1? ¿O tendrá que modificarlo con una herramienta de comparación difusa como Sikuli, etc.? – David
Acabo de notar que Apache PDFBox puede rasterizar PDF en imágenes por páginas. – David
Puedes echar un vistazo a xdiffweb.com. Es un proyecto de código abierto de java puro basado en apache pdfbox.
Gracias. La aplicación parece estar fuera de servicio. – mac
Quizás pueda aclarar sus expectativas. Hay muchas formas de crear dos archivos PDF diferentes que aparezcan exactamente iguales. También tenga en cuenta que los archivos PDF no tienen que tener texto de búsqueda. –