2012-03-05 27 views
10

Actualmente estoy trabajando en un proyecto para Android utilizando tesseract OCR. Esperaba afinar los resultados dados al usuario agregando un diccionario. De acuerdo con http://code.google.com/p/tesseract-ocr/wiki/FAQ, la mejor manera de hacer esto seríaDiccionario personalizado para Tesseract

Reemplazar tessdata/eng.user Palabras con su propia lista de palabras, en el mismo formato - texto UTF-8, una palabra por línea.

Sin embargo hay ningún archivo eng.user Palabras en la carpeta tessdata, supongo que si acabo de hacer un archivo de texto con mi diccionario en ella, que nunca será utilizado ..

Alguien ha tenido una experiencia similar y sabe qué hacer? Cualquier consejo sería de gran ayuda.

Respuesta

9

si está utilizando tesseract 3 (que supongo que es). Tendrás que reconstruir tu archivo eng.trainddata Tuve la intención de reemplazar el archivo word-dawg por completo para tratar de obtener mejores resultados (es decir, las palabras que estoy detectando son siempre las mismas).

necesitará los archivos ejecutables combine_tessdata y wordlist2dawg en el directorio de entrenamiento cuando compile tesseract.

  1. deshacer todo (i hizo esto sólo para respaldar mi eng.word-Dawg, también necesitará el unicharset más adelante)

    ./combine_tessdata -u eng.traineddata

  2. crear un archivo de texto de la lista de palabras (wordlistfile)

  3. crear un eng.word-dawg

    traineddat_backup ./wordlist2dawg wordlistfile eng.word-Dawg/.unicharset

  4. reemplazar el archivo de palabras-Dawg

    ./combine_tessdata -o eng.traineddata eng.word-Dawg

que debería ser.

+1

Estoy tratando de ejecutar este paso 3, pero teniendo este error 'Cargando unicharset de 'traineddat_backup/.unicharset' No se pudo cargar unicharset de 'traineddat_backup/.unicharset'' amablemente me estoy tratando de hacerlo por ayudar Ubuntu 12.04 y tesseract 3.02. –

+0

@MuhammadMuaz: 'entrendada_backup/.unicharset' es la ruta a la carpeta de la salida de 1st cmd. Si el primer cmd era './combine_tessdata -u it.traineddata/path/to/folder/tmp/ita', el 3ro es' ./wordlist2dawg wordlist ita.word-dawg/path/to/folder/tmp/ita. unicharset'. Espero que ayude, tiro 30 minutos sobre eso. – Tenaciousd93

Cuestiones relacionadas