Dado un conjunto de bytes que representan texto en una codificación desconocida (generalmente UTF-8 o ISO-8859-1, pero no necesariamente), ¿cuál es la mejor manera de obtener una estimación de la codificación más probable utilizada (en Java)?Adivinar la codificación del texto representado como byte [] en Java
Vale la pena destacar:
- No se meta-datos adicionales están disponibles. La matriz de bytes es literalmente la única entrada disponible.
- El algoritmo de detección obviamente no será 100% correcto. Si el algoritmo es correcto en más del 80% de los casos, eso es suficiente.
http://stackoverflow.com/questions/373081/ tal vez de ayuda – Chris