Tengo un texto que fue generado por otro sistema. Combinó algunas palabras juntas en lo que supongo que fue una especie de subproducto de envoltura de palabras. Entonces algo simple como 'el perro' se combina en 'el perro'.corrección de procesamiento de lenguaje natural para palabras combinadas
Revisé la cadena de caracteres ascii y unicode para ver si no había algún personaje invisible allí, pero no los había. Un problema confuso es que este es texto médico y no hay un corpus para verificar que no esté disponible. Entonces, el verdadero ejemplo es '... la prueba para descartar el SARS versus la neumonía' termina como '... versus la neumonía'.
Alguien tiene una sugerencia para la búsqueda y la separación de estos?
¿Este texto fue OCR? – tchrist