2009-09-28 18 views
6

Tengo un conjunto de imágenes sobre las que ejecuto una aplicación de OCR. Este proceso da como resultado un archivo XML con compensaciones de caracteres. Luego convierto las imágenes a PDF usando Acrobat 9. Ahora, me gustaría agregar la información del archivo XML como una capa de texto invisible en el PDF para lograr un PDF con capacidad de búsqueda. ¿Hay una manera fácil y gratuita?¿Cómo incrustar el OCR externo en el PDF existente?

Algunos detalles:

  • que no quieren utilizar la funcionalidad OCR de Acrobat;

  • El proceso de los resultados del OCR en un archivo XML que contiene elementos como:

    <line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

Actualización: puede ser posible hacer lo que quiero de una manera diferente. Supongamos que ya hay un archivo PDF generado a partir de un conjunto de imágenes y que ya contiene texto OCRed. ¿Sería posible (tal vez mediante programación) acceder solo a la imagen de cada página, procesarla (por ejemplo, convertirla en monocromo) y guardarla de nuevo en el archivo PDF? Si es así, entonces el texto OCRed no se perderá.

[¿Debo poner esta actualización en una pregunta separada?]

+0

Usted puede encontrar [hocr2pdf] (http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/) útil –

Respuesta

1

Para su pregunta de seguimiento sobre el procesamiento de archivos PDF sin perder las capas ocultas: Creo que Ghostscript es capaz de hacer esto. Por ejemplo, el siguiente comando debe convertir un PDF a escala de grises:

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf 
+0

Agradable, funcionó. Pero el resultado no es tan limpio como quería. Si ImageMagick pudiera convertir el PDF sin perder la capa de texto, me gustaría procesar cada página con algo como: convertir \\ (-blanco-blanco 50% \\) -monocromo ... Quizás haya una manera de contarlo IM cómo usar GS, como dijo Dave Parrillo. Voy a ver esto más tarde. – kepler

-1

Si todo lo que quieres hacer es convertir un PDF existente a escala de grises, tratan Imagemagick:

convert foo.pdf -colorspace Gray -compress zip gray.pdf 

no lo hago piense que esto cambiará cualquier otro atributo en su pdf.

+0

Esto no lo hace parece retener la capa de texto oculto en el PDF. (Intenté con ImageMagick 6.4.5.) –

+0

extraño, porque imagemagick usa ghostscript para hacer su conversión de imagen ... – DaveParillo

+0

También lo probé, y también perdí la capa de texto. Utilicé ImageMagick 6.4.5, también. – kepler

Cuestiones relacionadas