Tengo un vector de oraciones que fueron escaneadas de documentos escritos a mano. En el proceso hubo algunos problemas de espacios como este:R Regex/gsub: Cómo colapsar espacios en una cadena
The d og is br own.
tenía curiosidad si había una manera de forma genérica tomar cualquier patrón con '_x_'
o espacio-personaje-espacio y colapsar el segundo espacio como este:
The d og is br own. --> The dog is br own.
Solo me preocupa un solo carácter entre los espacios ('_x_'
NOT '_xx_'
).
¿Alguna sugerencia?
No sé cómo puede determinar que "The d og" debería ser "The dog" o "Thed og" sin un corpus. –
@JoshuaUlrich: estoy de acuerdo, estoy tratando de ver si hay una manera de colapsar uniformemente el primer o el segundo espacio en todos ellos, luego dejo que el corrector ortográfico lo mire y vea cómo resulta. – screechOwl
Oh, duh ... me perdí esa parte. Supongo que es hora de dormir un poco. –