Actualmente estoy trabajando en un proyecto para Android utilizando tesseract OCR. Esperaba afinar los resultados dados al usuario agregando un diccionario. De acuerdo con http://code.google.com/p/tesseract-ocr/wiki/FAQ, la mejor manera de hacer esto seríaDiccionario personalizado para Tesseract
Reemplazar tessdata/eng.user Palabras con su propia lista de palabras, en el mismo formato - texto UTF-8, una palabra por línea.
Sin embargo hay ningún archivo eng.user Palabras en la carpeta tessdata, supongo que si acabo de hacer un archivo de texto con mi diccionario en ella, que nunca será utilizado ..
Alguien ha tenido una experiencia similar y sabe qué hacer? Cualquier consejo sería de gran ayuda.
Estoy tratando de ejecutar este paso 3, pero teniendo este error 'Cargando unicharset de 'traineddat_backup/.unicharset' No se pudo cargar unicharset de 'traineddat_backup/.unicharset'' amablemente me estoy tratando de hacerlo por ayudar Ubuntu 12.04 y tesseract 3.02. –
@MuhammadMuaz: 'entrendada_backup/.unicharset' es la ruta a la carpeta de la salida de 1st cmd. Si el primer cmd era './combine_tessdata -u it.traineddata/path/to/folder/tmp/ita', el 3ro es' ./wordlist2dawg wordlist ita.word-dawg/path/to/folder/tmp/ita. unicharset'. Espero que ayude, tiro 30 minutos sobre eso. – Tenaciousd93