Me gustaría saber si los algoritmos de compresión siempre generan resultados únicos para dos conjuntos diferentes de archivos.¿Es posible que los algoritmos de compresión generen resultados idénticos para dos archivos diferentes?
Digamos, tengo dos archivos A y B, y digo que estoy aplicando un algoritmo de compresión (por ejemplo, PKZIP, podría ser cualquier algoritmo de compresión) para cada uno de estos archivos para obtener A.zip y B.zip respectivamente . ¿Es posible que A.zip sea exactamente idéntico a B.zip en el nivel binario para alguna combinación de A y B. Si esto no es posible, podemos suponer con seguridad que la compresión es equivalente al hash criptográfico cuando se trata de garantizar uniquenes ? Por otro lado, si es posible, ¿podría proporcionarme un archivo de muestra A y B junto con el algoritmo de compresión para verificar esta duplicidad?
Su mención de "hashing criptográfico" ha llevado a algunas personas a pensar que tiene la intención de usar la compresión sin pérdidas por razones de seguridad. ¿Es correcto? Si es así, es una idea terrible, por todos los motivos que dan. Pero si solo está interesado en garantizar la exclusividad y está preparado para lidiar con las salidas de longitud variable que le ofrece la compresión, entonces puede ser una elección razonable (aunque para todos los propósitos prácticos, usar un hash criptográfico de longitud fija será más rápido y funciona bien: la probabilidad de una colisión clave con, por ejemplo, llaves de 128 bits es más que insignificante). –