Quiero dividir una cadena multilingüe en tokens uni-linguales usando Regex.Separación de cadenas multilingües usando Regex para tokens uni-linguales
por ejemplo, para esta cadena de Inglés-árabe:
'se llamaba محمد, y su nombre era آمنه madre.'
El resultado debe ser de la siguiente manera:
- 'que se llamaba'
- 'محمد,'
- 'y su nombre era madre'
- 'آمنه.'
¿Qué ha probado? ¿Dónde estás atrapado? ¿Es siempre inglés-árabe, o al menos sabe qué scripts van a ocurrir en sus cadenas? –
@TimPietzcker Sí, siempre es inglés-árabe. – ARZ