En una aplicación web reciente que construí, me sorprendió gratamente cuando uno de nuestros usuarios decidió usarlo para crear algo completamente en japonés. Sin embargo, el texto estaba envuelto de manera extraña y torpe. Aparentemente, los navegadores no manejan muy bien el texto japonés, probablemente porque contiene pocos espacios, ya que cada personaje forma una palabra completa. Sin embargo, no es una suposición segura ya que algunas palabras están compuestas de varios caracteres, y no es seguro dividir algunos grupos de caracteres en líneas diferentes.Algoritmos de ajuste de palabras para japonés
Google no me ha ayudado realmente a entender el problema mejor. Me parece que uno necesitaría un diccionario de patrones irrompibles, y asumir que en cualquier otro lugar es seguro romperlo. Pero me temo que no sé lo suficiente sobre japonés para saber realmente todas las palabras, lo que entiendo de algunas de mis búsquedas, son bastante complicadas.
¿Cómo abordaría este problema? ¿Hay alguna biblioteca o algoritmo de los que ya tenga conocimiento que se ocupen de esto de manera satisfactoria?
duplicado exacto http://stackoverflow.com/questions/1605353/how-does-one-word-break-languages-without-spaces-between-words-like-asian-langua – Breton
Creo que no puede palabra envuelva japonés sin entender las palabras, entonces lo que necesitará como mínimo es un diccionario japonés. No podría decirte lo difícil que sería eso o si habría alguna ambigüedad (lo que significa que la palabra correcta depende del contexto, lo que la complicará mucho). – cletus
no realmente duplicado - esa pregunta se trata de dividir texto en palabras con el propósito de indexar. Ese es un problema difícil. Afortunadamente, se puede ignorar en gran medida al ajustar el diseño. –