Yo utilizo parallel
, así, en un Centos, de esta manera:
ls | parallel --gnu "tesseract {} {.}"
que utiliza la opción --gnu
como se sugiere desde el stdout log que era:
parallel: Warning: YOU ARE USING --tollef. IF THINGS ARE ACTING WEIRD USE --gnu.
{}
y {.}
son marcadores de posición para el paralelo: en este caso le está diciendo a tesseract que use el archivo listado como primer argumento, y el mismo nombre de archivo sin extensión como segundo argumento; todo está bien explicado en páginas man paralelas.
Ahora, si usted tiene - por ejemplo - tres .tif
archivos y ejecutar tesseract
tres veces, una para cada archivo, resumiendo el tiempo de ejecución, y después de ejecutar el comando anterior con time
antes parallel
, puede comprobar fácilmente la acelerar.
posible duplicado de [¿Es Tesseract (un motor de OCR) reentrante?] (Http://stackoverflow.com/questions/4827924/is-tesseractan-ocr-engine-reentrant) –