Biblioteca de Java Pdf Diff

¿Alguien sabe de una biblioteca de código abierto de Java que hará la diferencia robusta de las partes de texto de los archivos de pdf?Biblioteca de Java Pdf Diff

Idealmente me gustaría algo que produciría un diff en forma de un parche.

Fuente

2009-05-20 mac

Quizás pueda aclarar sus expectativas. Hay muchas formas de crear dos archivos PDF diferentes que aparezcan exactamente iguales. También tenga en cuenta que los archivos PDF no tienen que tener texto de búsqueda. –

Extraiga el texto en pdf con http://incubator.apache.org/pdfbox/ y cree un diff con http://code.google.com/p/google-diff-match-patch.

Fuente

2009-05-20 11:25:03 trunkc

Si los PDF son diferentes solo en texto, también podría rasterizar las páginas y luego observar las diferencias de esa manera: lo usamos para la prueba de regresión en nuestro código PDF.

Fuente

2009-05-21 06:49:44

¿Hay alguna biblioteca o código para rasterizar un archivo PDF? También en rasterizar, ¿el resultado siempre será el mismo en términos de un hash MD5/SHA1? ¿O tendrá que modificarlo con una herramienta de comparación difusa como Sikuli, etc.? – David

Acabo de notar que Apache PDFBox puede rasterizar PDF en imágenes por páginas. – David

Puedes echar un vistazo a xdiffweb.com. Es un proyecto de código abierto de java puro basado en apache pdfbox.

Fuente

2018-02-28 09:57:35 lumpchen

Gracias. La aplicación parece estar fuera de servicio. – mac

Respuesta

Cuestiones relacionadas