Tengo un conjunto de imágenes sobre las que ejecuto una aplicación de OCR. Este proceso da como resultado un archivo XML con compensaciones de caracteres. Luego convierto las imágenes a PDF usando Acrobat 9. Ahora, me gustaría agregar la información del archivo XML como una capa de texto invisible en el PDF para lograr un PDF con capacidad de búsqueda. ¿Hay una manera fácil y gratuita?¿Cómo incrustar el OCR externo en el PDF existente?
Algunos detalles:
que no quieren utilizar la funcionalidad OCR de Acrobat;
El proceso de los resultados del OCR en un archivo XML que contiene elementos como:
<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>
Actualización: puede ser posible hacer lo que quiero de una manera diferente. Supongamos que ya hay un archivo PDF generado a partir de un conjunto de imágenes y que ya contiene texto OCRed. ¿Sería posible (tal vez mediante programación) acceder solo a la imagen de cada página, procesarla (por ejemplo, convertirla en monocromo) y guardarla de nuevo en el archivo PDF? Si es así, entonces el texto OCRed no se perderá.
[¿Debo poner esta actualización en una pregunta separada?]
Usted puede encontrar [hocr2pdf] (http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/) útil –