2009-05-20 18 views
6

¿Alguien sabe de una biblioteca de código abierto de Java que hará la diferencia robusta de las partes de texto de los archivos de pdf?Biblioteca de Java Pdf Diff

Idealmente me gustaría algo que produciría un diff en forma de un parche.

+0

Quizás pueda aclarar sus expectativas. Hay muchas formas de crear dos archivos PDF diferentes que aparezcan exactamente iguales. También tenga en cuenta que los archivos PDF no tienen que tener texto de búsqueda. –

Respuesta

0

Si los PDF son diferentes solo en texto, también podría rasterizar las páginas y luego observar las diferencias de esa manera: lo usamos para la prueba de regresión en nuestro código PDF.

+0

¿Hay alguna biblioteca o código para rasterizar un archivo PDF? También en rasterizar, ¿el resultado siempre será el mismo en términos de un hash MD5/SHA1? ¿O tendrá que modificarlo con una herramienta de comparación difusa como Sikuli, etc.? – David

+0

Acabo de notar que Apache PDFBox puede rasterizar PDF en imágenes por páginas. – David

0

Puedes echar un vistazo a xdiffweb.com. Es un proyecto de código abierto de java puro basado en apache pdfbox.

+0

Gracias. La aplicación parece estar fuera de servicio. – mac