¿Cómo incrustar el OCR externo en el PDF existente?

Tengo un conjunto de imágenes sobre las que ejecuto una aplicación de OCR. Este proceso da como resultado un archivo XML con compensaciones de caracteres. Luego convierto las imágenes a PDF usando Acrobat 9. Ahora, me gustaría agregar la información del archivo XML como una capa de texto invisible en el PDF para lograr un PDF con capacidad de búsqueda. ¿Hay una manera fácil y gratuita?¿Cómo incrustar el OCR externo en el PDF existente?

Algunos detalles:

que no quieren utilizar la funcionalidad OCR de Acrobat;
El proceso de los resultados del OCR en un archivo XML que contiene elementos como:

<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

Actualización: puede ser posible hacer lo que quiero de una manera diferente. Supongamos que ya hay un archivo PDF generado a partir de un conjunto de imágenes y que ya contiene texto OCRed. ¿Sería posible (tal vez mediante programación) acceder solo a la imagen de cada página, procesarla (por ejemplo, convertirla en monocromo) y guardarla de nuevo en el archivo PDF? Si es así, entonces el texto OCRed no se perderá.

[¿Debo poner esta actualización en una pregunta separada?]

Fuente

2009-09-28 kepler

Usted puede encontrar [hocr2pdf] (http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/) útil –

Para su pregunta de seguimiento sobre el procesamiento de archivos PDF sin perder las capas ocultas: Creo que Ghostscript es capaz de hacer esto. Por ejemplo, el siguiente comando debe convertir un PDF a escala de grises:

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf

Fuente

2009-10-05 22:28:48

Agradable, funcionó. Pero el resultado no es tan limpio como quería. Si ImageMagick pudiera convertir el PDF sin perder la capa de texto, me gustaría procesar cada página con algo como: convertir \\ (-blanco-blanco 50% \\) -monocromo ... Quizás haya una manera de contarlo IM cómo usar GS, como dijo Dave Parrillo. Voy a ver esto más tarde. – kepler

-1

Si todo lo que quieres hacer es convertir un PDF existente a escala de grises, tratan Imagemagick:

convert foo.pdf -colorspace Gray -compress zip gray.pdf

no lo hago piense que esto cambiará cualquier otro atributo en su pdf.

Fuente

2009-10-01 16:15:14 DaveParillo

Esto no lo hace parece retener la capa de texto oculto en el PDF. (Intenté con ImageMagick 6.4.5.) –

extraño, porque imagemagick usa ghostscript para hacer su conversión de imagen ... – DaveParillo

También lo probé, y también perdí la capa de texto. Utilicé ImageMagick 6.4.5, también. – kepler

¿Cómo incrustar el OCR externo en el PDF existente?

Respuesta

Cuestiones relacionadas