Lo siento mucho por esta otra pregunta novato, pero realmente no puedo entender lo que está sucediendo aquí. Quiero calcular la frecuencia de las palabras de un archivo, donde las palabras son una por línea. El archivo es muy grande, por lo que este podría ser el problema (que cuenta 300k líneas en este ejemplo)¿Por qué no está trabajando uniq en este gran archivo? bash
hago este comando:
cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt
y el problema es que me da un pequeño error: se me considera las mismas palabras que diferentes. Por ejemplo las primeras entradas son:
306 continua
278 apertura
211 eventi
189 murah
182 giochi
167 giochi
con giochi repite dos veces como se puede ver
en la parte inferior del archivo se vuelve aún peor y se ve así:
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 winchester
1 wind
1 wind
para todas las palabras
Realmente lo siento de nuevo por la estúpida pregunta, pero soy un poco novato con la programación de shell. ¿Qué estoy haciendo mal?
muchas gracias
uso inútil de gato. – scai