Script Bash para encontrar la frecuencia de cada letra en un archivo

Estoy tratando de averiguar la frecuencia de aparición de cada letra del alfabeto inglés en un archivo de entrada. ¿Cómo puedo hacer esto en un script bash?Script Bash para encontrar la frecuencia de cada letra en un archivo

Fuente

2010-10-19 SkypeMeSM

¿Por qué usa bash para esto? –

¡Encontré esta pregunta de programación en alguna parte! Supongo que Perl sería la mejor alternativa, ¿no? – SkypeMeSM

Sólo un comando awk

awk -vFS="" '{for(i=1;i<=NF;i++)w[$i]++}END{for(i in w) print i,w[i]}' file

si quieres sensible a mayúsculas, añadir tolower()

awk -vFS="" '{for(i=1;i<=NF;i++)w[tolower($i)]++}END{for(i in w) print i,w[i]}' file

y si desea que sólo los personajes,

awk -vFS="" '{for(i=1;i<=NF;i++){ if($i~/[a-zA-Z]/) { w[tolower($i)]++} } }END{for(i in w) print i,w[i]}' file

y si quieres sólo dígitos, cambiar /[a-zA-Z]/ a /[0-9]/

si no desea mostrar Unicode, hacer export LC_ALL=C

Fuente

2010-10-19 09:21:37 ghostdog74

Gracias por su respuesta. – SkypeMeSM

Lo siento, no estoy muy familiarizado con awk. La solución funciona pero obtengo todos los caracteres en lugar de solo caracteres alfanuméricos. awk -vFS = "" '{for (i = 1; i <= NF; i ++) w [tolower ($ i)] ++ sum ++} END {para (i en w) print i, w [i], w [i]/sum} ' – SkypeMeSM

Gracias de nuevo. Me pregunto por qué obtengo resultados como ü 2 y é 2, cuando la expresión regular es [a-zA-Z]. – SkypeMeSM

Aquí es una sugerencia:

while read -n 1 c 
do 
    echo "$c" 
done < "$INPUT_FILE" | grep '[[:alpha:]]' | sort | uniq -c | sort -nr

Fuente

2010-10-19 09:17:01 Benoit

Gracias por responder. – SkypeMeSM

Una solución con sed, sort y uniq:

sed 's/\(.\)/\1\n/g' file | sort | uniq -c

Esto cuenta todos los personajes, no solo las letras. Puede filtrar con:

sed 's/\(.\)/\1\n/g' file | grep '[A-Za-z]' | sort | uniq -c

Si usted desea considerar mayúsculas y minúsculas como lo mismo, basta con añadir una traducción:

sed 's/\(.\)/\1\n/g' file | tr '[:upper:]' '[:lower:]' | grep '[a-z]' | sort | uniq -c

Fuente

2010-10-19 09:28:59 mouviciel

Gracias.Esto considera caracteres mayúsculas y minúsculas como separadas. ¿Cómo puedo calcular las frecuencias donde consideramos A y a como lo mismo? – SkypeMeSM

Sí, esto funciona muy bien también. Me pregunto cómo puedo calcular las probabilidades, es decir, frecuencia/suma total. Tendremos que conectar la salida de nuevo a sed, pero no puedo entender la expresión regular involucrada. – SkypeMeSM

Puede agregar algunos 'wc',' cut', 'dc',' tee' y otros comandos, pero sería más malabares con las placas que un trabajo fácil de mantener. Creo que agregar más características sería más fácil con un script de Perl. – mouviciel

Mi solución usando grep, sort y uniq.

grep -o . file | sort | uniq -c

Ignorar mayúsculas:

grep -o . file | sort -f | uniq -ic

Fuente

2010-10-19 12:03:10 dogbane

¿cómo puedo obtener la frecuencia/suma (todas las frecuencias) después de esto? – SkypeMeSM

Esto funciona con una terminal de mac. –

@SkypeMeSM para obtener la frecuencia de cada carácter, simplemente divida por el número total de caracteres (que está dado por 'wc -c archivo'). –

similares a mouviciel de respuesta anterior, pero más genérico para Bourne y Korn proyectiles utilizados en sistemas BSD, cuando usted no tiene sed de GNU, que soporta \ n en un reemplazo, puede barra invertida una nueva línea:

sed -e's/./&\ 
/g' file | sort | uniq -c | sort -nr

o para evitar la división visual en la pantalla, insertar una nueva línea literal por tipo CTRL + V CTRL + J

sed -e's/./&\^J/g' file | sort | uniq -c | sort -nr

Fuente

2013-05-15 13:46:02

Script Bash para encontrar la frecuencia de cada letra en un archivo

Respuesta

Cuestiones relacionadas