2011-03-01 14 views
15

Estoy buscando una biblioteca de OCR de fuente abierta que se ejecute en Linux. Necesito que esto funcione para PNG y PDF. Sobre todo me gustaría conectar esta biblioteca desde Java o Ruby. Alguna idea si hay algo disponible?OCR de fuente abierta

Atentamente.

+0

Has comprobado que el texto no está disponible en el PDF, ¿verdad? (Recuerdo vagamente que PNG también podría tener la capacidad de almacenar texto, pero podría confundirse allí). –

+0

http://www.roncemer.com/software-development/java-ocr – Trick

Respuesta

1

Cuneiform es gratis y hace un trabajo decente. Podría invocarlo como un subprograma, pero no tengo un enlace de idiomas que yo sepa. No leerá archivos PDF directamente, pero puede separar archivos PDF que son secuencias de imágenes escaneadas para alimentarlas a Cuneiform. También hay scripts para volver a unir las imágenes y el texto en un PDF con capacidad de búsqueda.

12

Tesseract es un muy buen motor de OCR: https://github.com/tesseract-ocr/tesseract

El proyecto ha sido puesto en marcha por los laboratorios de HP y ahora se continúa con el patrocinio de Google (por Google Books!). Se lanzó bajo la licencia de Apache y se ejecuta en Linux. Utiliza archivos Tiff o PNG; para archivos PDF, deberá convertir a uno de estos formatos. Supongo que no hay ningún enlace por lo que debe invocar este software como un subprograma ...

0

Pruebe tesjeract, que utiliza JNI para llamar a Tesseract OCR API.

Para PDF, primero tendrá que convertirlos a imagen usando GhostScript, por ejemplo.

Cuestiones relacionadas