Estoy buscando una manera de detectar conjuntos de caracteres dentro de los documentos. He estado leyendo la aplicación de detección de conjunto de caracteres Mozilla aquí:Algoritmo de detección de codificación de caracteres
También he encontrado una implementación Java de esta llamada jCharDet:
Ambos se basan en investigación llevada a cabo utilizando un conjunto de datos estáticos. Lo que me pregunto es si alguien ha utilizado alguna otra implementación con éxito y, en caso afirmativo, ¿qué? ¿Hiciste rodar tu propio enfoque y, de ser así, cuál fue el algoritmo que usaste para detectar el conjunto de caracteres?
Cualquier ayuda sería apreciada. No estoy buscando para obtener una lista de los enfoques existentes a través de Google, ni estoy en busca de un enlace al artículo de Joel Spolsky - sólo para aclarar:)
ACTUALIZACIÓN: Hice un montón de investigación sobre este y terminó encontrando un marco llamado cpdetector que utiliza un enfoque conectable a la detección de caracteres, consulte:
Esto proporciona la lista de materiales, Chardet (enfoque de Mozilla) y los plugins de detección ASCII. También es muy fácil escribir el tuyo. También hay otro marco, que ofrece mucho mejor detección del carácter que el enfoque Mozilla/jchardet etc ...
Es bastante fácil de escribir su propio blog a más de cpdetector que utiliza este marco para proporcionar un carácter más preciso algoritmo de detección de codificación. Funciona mejor que el enfoque de Mozilla.
Es un problema difícil. Gracias por los excelentes enlaces de su propia investigación. – erickson
Hay un caso famoso de esto: http://blogs.msdn.com/oldnewthing/archive/2007/04/17/2158334.aspx – McDowell
Sí, superado el problema de la libreta, voy a revisar mi publicación con mi investigación una vez que haya terminado y completado, algunas cosas interesantes ... – Jon