Valor porcentual con GNU Diff

¿Cuál es un buen método para usar diff para mostrar una diferencia porcentual entre dos archivos?Valor porcentual con GNU Diff

Como si un archivo tiene 100 líneas y una copia tiene 15 líneas que se han cambiado, el porcentaje de diferencia sería del 15%.

Fuente

2010-04-27 cdated

Puede usar sdiff y contar los separadores, luego dividir por el número de líneas. – MJB

diff archivoA archivoB | wc -l dividido por wc -l archivo A // parece ser una forma manual interesante de hacerlo. – cdated

Pero el problema sería que cuando hay una diferencia, obtienes 3 líneas: original, nueva y descripción. Entonces probablemente sobreestimarías. – MJB

¿Algo así como esto?

Dos archivos, A1 y A2.

$ sdiff -B -b -s A1 A2 | wc le daría la cantidad de líneas diferentes. wc da total, solo divide.

Las opciones -b y -B ignoran los espacios en blanco y las líneas en blanco, y -s indica que se suprimen las líneas comunes.

Fuente

2010-04-27 16:30:35 MJB

del archivo man de wc: líneas nuevas, palabras y bytes. divide el primer número en el resultado por el número de líneas en el archivo que está comparando. wc -l, le da solo el número de líneas y puede agregarse al comando de arriba. - Respuesta a AlligatorJack – cdated

@cdated: gracias por aclarar. No vi la pregunta/respuesta, por supuesto, hasta que lo comentaste. – MJB

Aquí hay un script que comparará todos los archivos .txt y mostrar los que tienen más de un 15% la duplicación:

#!/bin/bash 

# walk through all files in the current dir (and subdirs) 
# and compare them with other files, showing percentage 
# of duplication. 

# which type files to compare? 
# (wouldn't make sense to compare binary formats) 
ext="txt" 

# support filenames with spaces: 
IFS=$(echo -en "\n\b") 

working_dir="$PWD" 
working_dir_name=$(echo $working_dir | sed 's|.*/||') 
all_files="$working_dir/../$working_dir_name-filelist.txt" 
remaining_files="$working_dir/../$working_dir_name-remaining.txt" 

# get information about files: 
find -type f -print0 | xargs -0 stat -c "%s %n" | grep -v "/\." | \ 
    grep "\.$ext" | sort -nr > $all_files 

cp $all_files $remaining_files 

while read string; do 
    fileA=$(echo $string | sed 's/.[^.]*\./\./') 
    tail -n +2 "$remaining_files" > $remaining_files.temp 
    mv $remaining_files.temp $remaining_files 
    # remove empty lines since they produce false positives 
    sed '/^$/d' $fileA > tempA 

    echo Comparing $fileA with other files... 

    while read string; do 
     fileB=$(echo $string | sed 's/.[^.]*\./\./') 
     sed '/^$/d' $fileB > tempB 
     A_len=$(cat tempA | wc -l) 
     B_len=$(cat tempB | wc -l) 

     differences=$(sdiff -B -s tempA tempB | wc -l) 
     common=$(expr $A_len - $differences) 

     percentage=$(echo "100 * $common/$B_len" | bc) 
     if [[ $percentage -gt 15 ]]; then 
      echo " $percentage% duplication in" \ 
       "$(echo $fileB | sed 's|\./||')" 
     fi 
    done < "$remaining_files" 
    echo " " 
done < "$all_files" 

rm tempA 
rm tempB 
rm $all_files 
rm $remaining_files

Fuente

2013-09-09 11:12:57

https://superuser.com/questions/347560/is-there-a-tool-to-measure-file-difference-percentage tiene una buena solución para esto, fichero1

wdiff -s. txt archivo2.txt

más opciones ver man wdiff.

Fuente

2014-09-28 14:30:06 user159452

Respuesta

Cuestiones relacionadas