2011-07-06 11 views
5

Estoy creando un servicio que supervisa una carpeta para archivos escaneados. Una vez que el archivo está allí, el servicio lo recoge y lo convierte en un PDF legible. En este proceso, el servicio también busca un código de barras. Después de esto, el texto se extrae y el archivo, con su texto, se almacena en la base de datos de nuestro software. La ubicación se basa en el código de barras.Cómo mejorar la calidad de PDF antes de utilizar OCR C#

Ahora, para el OCR estamos utilizando el SDK de Atalasoft (http://www.atalasoft.com/). También el reconocedor de código de barras está incluido en este SDK.

Pero el texto convertido todavía tiene algunos errores. (Realicé algunas pruebas con otros programas de OCR, pero Atalasoft salió bien). Estoy buscando algún software (SDK-kit) que me permita mejorar la calidad del PDF para propósitos de OCR.

He probado Kofax VRS Elite (http://www.kofax.com/vrs-virtualrescan/). Estoy buscando algo similar, pero eso se puede implementar en el servicio usando algún tipo de SDK-kit.

¿Alguien que hizo esto antes, o tuvo problemas similares? thx de antemano!

Respuesta

2

Puede tratar de seguir un camino diferente por completo:
Vea si puede configurar el (los) escáner (es) para escanear directamente a PDF y hacer el OCR sobre la marcha. Los escáneres de Lexmark pueden hacer esto. Esto crea archivos PDF con texto seleccionable y que se puede buscar. Esto, a su vez, se puede extraer con una biblioteca de lectura de PDF.

Si lo prefiere, puede consultar http://www.abbyy.com/ y ver si obtiene mejores resultados.

Si estas no son buenas opciones, es posible que desee desglosar su problema de forma sistemática:
1. ¿Es la calidad de imagen de las imágenes escaneadas el problema? Si es así, entonces esto tendrá que ser arreglado primero. Su solución de OCR puede verse afectada por la resolución, el contraste y el color.
2. ¿Es el software OCR? Tome un documento altamente legible y vea si el software OCR comete errores. Si es así, entonces usted sabe que debe encontrar un mejor software de OCR.
3. Si la calidad de su documento es aceptable y su software de OCR tiene una alta tasa de éxito para descifrar un documento legible, entonces puede consultar las excepciones que no funcionan y abordarlas caso por caso.

Si los borrones y las imágenes de fondo en los documentos son la causa del problema, es posible que desee buscar formas de evitar esto o de limpiarlo con el software de procesamiento de imágenes que expone una API.

+1

Hola, gracias por tu respuesta. Pero la opción de comprar otro escáner no está disponible. Y realicé algunas pruebas con abbyy, la calidad es comparable con el OCR de atalasoft. Anny otras sugerencias? –

Cuestiones relacionadas