Soy muy nuevo en OCR y casi no sé nada sobre los algoritmos utilizados para reconocer palabras. Me estoy familiarizando con eso.Cuál es el método típico para separar letras conectadas en una palabra usando OCR
¿Podría alguien aconsejarme sobre el método típico usado para reconocer y separar caracteres individuales en forma conectada (quiero decir en una palabra donde todas las letras están unidas)? Olvídese de la escritura a mano, suponiendo que las letras se conectan juntas utilizando una fuente conocida, ¿cuál es el mejor método para determinar cada carácter individual en una palabra? Cuando los caracteres se escriben por separado no hay ningún problema, pero cuando se unen, debemos saber dónde comienza y dónde termina cada personaje para avanzar al siguiente paso y unirlos individualmente a una letra. ¿Hay algún algoritmo conocido para eso?
Es poco probable que Tesseract pueda manejar scripts conectados como el árabe. Tomará algunos algoritmos especializados para manejar este caso, y en este momento no los tiene. code.google.com/p/tesseract-ocr/wiki/ TrainingTesseract – Meysam
Bastante justo. Supuse que hablabas de inglés conectado (ir Cursive). Esperemos que las ideas sean útiles sin embargo. Agregaré otra respuesta para árabe. –