En mi trabajo, a veces tengo que tomar algún código fuente impreso y escribir manualmente el código fuente en un editor de texto. No preguntes por que.¿Necesita un buen OCR para el listado del código fuente impreso, alguna idea?
Obviamente, escribirlo lleva mucho tiempo y siempre requiere tiempo extra para depurar los errores de tipeo (se ha perdido un signo de "$" allí).
yo decidimos probar algunas soluciones de OCR como:
- Microsoft Document Imaging - ha construido en el OCR
- Resultado: se perdió todos los espacios en blanco que lleva, se perdió todos los guiones, interpretado muchos de los puntuacion caracteres incorrectamente.
- Conclusión: Más lento que escribir manualmente en el código.
- Varios Web en línea OCR aplicaciones
- Resultado: similar o peor que Microsoft Document Imaging
- Conclusión: Más lento que escribir manualmente en el código.
me siento como código fuente, sería muy fácil de OCR dado que la fuente es sans serif y monospace.
¿Alguno de ustedes ha encontrado una buena solución de OCR que funciona bien en el código fuente?
Tal vez solo necesito una mejor solución de OCR (no necesariamente el código fuente específico)?
Probé Tesseract. Falló cuando lo descargué por primera vez. El archivo léame en línea especifica que no viene con ningún dato de entrenamiento. Descargué los datos de entrenamiento en inglés del sitio web y los destraté en subdirectorios tessdata. PERO entonces todavía se quejaba de "no pudo encontrar eng.unicharset". ¿Cómo estoy metiendo esto? –
¿Ves lo que quiero decir? Tesseract es gratis solo si su tiempo no cuesta nada. Pero puede publicar preguntas en el grupo de usuarios de tesseract. Ellos son amigables allí y su aporte ayudará a que sea más fácil para la siguiente persona poner a esta bestia. –
@Aaron Digulla, señor, ¿puede compartir algunas bibliotecas de OCR que están dentro del rango de $ 150 a $ 500, –