2010-04-01 13 views
23

Según su experiencia, ¿cuál es la biblioteca/software de reconocimiento óptico de caracteres (OCR) de fuente abierta más preciso para leer texto en japonés?OCR de código abierto más preciso para japonés?

Acabo de probar nhocr, su tasa de error es más del 2% incluso en un documento de alta definición extremadamente limpio.

+1

Por lo que vale, el 2% no es terrible para OCR. Luchamos por conseguir eso con, uhm, Romaji. –

+0

2% es para caracteres ultra limpios en letra grande. Para los libros escaneados es mucho peor, y mucho menos los formularios manuscritos. –

Respuesta

4

En función de la falta de respuestas, parece que nhocr IS es el OCR de código abierto más preciso para japonés.

2

No lo he probado, pero tal vez deberías echar un vistazo a tesseract.

+0

El japonés no está disponible, ni siquiera como una descarga por separado: http://code.google.com/p/tesseract-ocr/downloads El archivo léame menciona brevemente que el japonés se ha eliminado y está disponible en alguna parte, pero en realidad no está a la vista. se puede encontrar :-(http://code.google.com/p/tesseract-ocr/wiki/ReadMe En la lista de correo, un usuario informó de cierto éxito en el entrenamiento de Tesseract en 60 caracteres japoneses, pero es claramente experimental. In conclusión, podría ser posible, pero en la práctica nadie usa Tesseract para japonés. –

+0

No sé japonés, pero el hecho de que tenían un grupo japonés parecía interesante: http://groups.google.co.jp/group/ tesseract-ocr/(pero mirándolo bien podría ser una versión japonesa del internacional, perdón si perdí tu tiempo) – baol

+1

@Nicolas He abierto el número http://code.google.com/p/tesseract -o cr/issues/detail? id = 291 sobre los archivos de datos CJK faltantes – SamB

0

He tenido algo de R & D experiencia con la solución de ABBYY - FineReader Engine. Era la versión 8.1 en ese momento, y no estoy al día con sus últimas revisiones. Pero en ese momento, fue simplemente lo mejor que pude encontrar para nuestro producto de escáner de mano. Lo recomiendo altamente.

Por cierto, puede obtener una versión gratuita del paquete ABBYY OCR para usuarios finales al comprar una impresora XEROX PE220, que viene incluida. Esa impresora estaba en mi escritorio por varios años. Debe haber otras impresoras que vienen con todo incluido. Xerox estaba apostando por su OCR como el mejor también.

+0

FineReader NO es de código abierto. Y la versión que estaba usando NO era compatible con japonés: http://www.abbyy.com/Default.aspx?DN=b6d671c1-6da6-4bec-8c06-0ad362f6a7e9 –

+3

Lo sentimos, pero no vimos la solicitud de código abierto. No es de código abierto. La versión que estaba usando tenía soporte CJK (chino, japonés y coreano), que es un complemento del motor. Lo estábamos usando para demostrar a los compradores del sudeste nuestra tecnología. VEA AT: http://www.ocr.gr/downloads/Engine%208.1%20What's%20New.pdf (copie la URL porque SO la rompe) –

+0

@Etamar ABBYY OCR es interesante. ¿Permiten la integración con un diccionario personalizado, personalizando el análisis de bigrams, etc.?Necesitamos usar estas técnicas para mejorar la precisión del OCR. –

-1

Por favor intente WeOCR. La versión del servidor y la versión de descarga están disponibles.

+0

Si entiendo bien, WeOCR es solo un front-end web para otros motores de OCR. En particular, usa nhocr para japonés. Así que supongo que no es más preciso que nhocr, ¿verdad? –

+0

Ver http://weocr.ocrgrid.org/#todo Uno de los elementos de TODO es "Desarrollar un OCR para japonés" y enlaces a nhocr –

+1

Yah. Eso es correcto. Hace apenas un mes, probé su versión de servidor en línea. Pero estaba lejos de ser exacto. Teléfono celular japonés especialmente el teléfono celular Sharp tiene una excelente capacidad de OCR. Pero no encontré otro software gratuito de OCR. Por supuesto, Sharp no vende su software de OCR en este momento. – kmugitani

Cuestiones relacionadas