En algún momento, en un futuro cercano, tendré que implementar un recuento de palabras entre idiomas, o si eso no es posible, un recuento de caracteres en varios idiomas.Una biblioteca/clase PHP para contar palabras en varios idiomas?
Por conteo de palabras me refiero a un conteo exacto de las palabras contenidas dentro del texto dado, tomando el idioma del texto. El idioma del texto lo establece un usuario y se asumirá que es correcto.
Por número de caracteres quiero decir un recuento de los caracteres "posiblemente en una palabra" contenidos en el texto dado, con la misma información de idioma descrita anteriormente.
Preferiría mucho el recuento anterior, pero soy consciente de las dificultades involucradas. También soy consciente de que la última cuenta es mucho más fácil, pero prefiero mucho la anterior, si es posible.
Me encantaría si tuviera que mirar inglés, pero necesito considerar todos los idiomas aquí, chino, coreano, inglés, árabe, hindi, etc.
me gustaría saber si el desbordamiento de pila tiene ninguna pista sobre dónde empezar a buscar un producto/método existente para hacer esto en PHP, ya que soy un buen programador perezoso *
A simple test que muestra cómo str_word_count con set_locale no funciona, y una función de la página str_word_count de php.net.
* http://blogoscoped.com/archive/2005-08-24-n14.html
CJK va a ser el más difícil, ya que no utilizan espacios para separar las palabras. – Turnor
observación astuta. Esta es la razón por la que publiqué mi pregunta aquí;) –
Esta fue la pregunta que hice anteriormente como respuesta: ¿Podría ser más específico a qué se refiere con "recuento de palabras"? ¿Desea verificar que una palabra realmente existe en el diccionario de ese idioma, o simplemente busca un recuento de frases separadas por los delimitadores de ese idioma? – Grantismo