Estoy usando Python 3.1, pero puedo cambiar de versión si es necesario.Python - conteo de frecuencia de letras y traducción
Tengo un archivo ASCII que contiene un cuento escrito en uno de los idiomas cuyo alfabeto se puede representar con ASCII superior o inferior. Deseo:
1) detectar una codificación a lo mejor de mis habilidades, obtener algún tipo de métrica de confianza (variaría dependiendo de la longitud del archivo, a la derecha)
2) traducir automáticamente el conjunto? cosa usando algún servicio gratuito en línea o una biblioteca.
Pregunta adicional: ¿Qué pasa si el texto está escrito en un idioma donde se necesitan 2 o más bytes para representar una letra y la marca de orden de bytes no está allí para ayudarme?
Finalmente, ¿cómo manejo la puntuación y los caracteres misceláneos como el espacio? Ocurrirá con más frecuencia que algunas letras, ¿verdad? ¿Qué hay del hecho de que la puntuación y los caracteres se pueden mezclar a veces, puede haber dos representaciones de una coma, dos representaciones de lo que parece una "a", etc.?
Sí, he leído . Por favor ayúdenme con al menos algunos de estos artículos.
¡Gracias!
P.S. Esta no es una tarea, pero es para propósitos autoeducativos. Prefiero usar una biblioteca de letras de frecuencia que sea de código abierto y legible en comparación con la que está cerrada, eficiente, pero que hace bien el trabajo.
Gracias. Por favor, elabore sobre el segundo párrafo. Supongo que mi conocimiento de las codificaciones no es tan profundo como pensaba. –
¿Alguien dijo UTF-8 ?! – jathanism