2010-01-19 24 views
6

En una aplicación web reciente que construí, me sorprendió gratamente cuando uno de nuestros usuarios decidió usarlo para crear algo completamente en japonés. Sin embargo, el texto estaba envuelto de manera extraña y torpe. Aparentemente, los navegadores no manejan muy bien el texto japonés, probablemente porque contiene pocos espacios, ya que cada personaje forma una palabra completa. Sin embargo, no es una suposición segura ya que algunas palabras están compuestas de varios caracteres, y no es seguro dividir algunos grupos de caracteres en líneas diferentes.Algoritmos de ajuste de palabras para japonés

Google no me ha ayudado realmente a entender el problema mejor. Me parece que uno necesitaría un diccionario de patrones irrompibles, y asumir que en cualquier otro lugar es seguro romperlo. Pero me temo que no sé lo suficiente sobre japonés para saber realmente todas las palabras, lo que entiendo de algunas de mis búsquedas, son bastante complicadas.

¿Cómo abordaría este problema? ¿Hay alguna biblioteca o algoritmo de los que ya tenga conocimiento que se ocupen de esto de manera satisfactoria?

+1

duplicado exacto http://stackoverflow.com/questions/1605353/how-does-one-word-break-languages-without-spaces-between-words-like-asian-langua – Breton

+1

Creo que no puede palabra envuelva japonés sin entender las palabras, entonces lo que necesitará como mínimo es un diccionario japonés. No podría decirte lo difícil que sería eso o si habría alguna ambigüedad (lo que significa que la palabra correcta depende del contexto, lo que la complicará mucho). – cletus

+2

no realmente duplicado - esa pregunta se trata de dividir texto en palabras con el propósito de indexar. Ese es un problema difícil. Afortunadamente, se puede ignorar en gran medida al ajustar el diseño. –

Respuesta

12

Las reglas japonesas de ajuste de palabras se llaman kinsoku shori y son sorprendentemente simples. En realidad, se preocupan principalmente por los signos de puntuación y no tratan de mantener las palabras intactas.

Acabo de consultar con una novela japonesa y, de hecho, ambas palabras en el guión syllabic kana y las que consisten en múltiples ideogramas chinos se envuelven a media palabra con impunidad.

+0

Acabo de probar eso en Yahoo Japón. Parece que Firefox implementa kinsoku shori. No pude obtener una línea para comenzar con un corchete de cierre (eso es todo lo que revisé). Con Safari, podría. – Thilo

+0

Según el formulario de comentarios @Michael, encontré que las reglas de ajuste son diferentes para el caso del idioma japonés. Como estoy enfrentando un problema al envolver contenido japonés mientras renderizo html en PDF, ¿hay alguna manera de ajustar el japonés usando CSS o de alguna otra manera? – lambypie

+0

Solo para aclarar, @Michael no está diciendo que el salto de línea sea gratuito. Existen reglas específicas sobre cómo realizar saltos de línea y los casos en los que no se permiten saltos de línea. El artículo de Wikipedia al que se vincula es muy útil. – mercurytw

Cuestiones relacionadas