A veces escuché esp en el contexto de la recuperación de información, motores de búsqueda, rastreadores, etc. que podemos detectar páginas duplicadas mediante el contenido de hash de una página. ¿Qué tipo de funciones hash son capaces de hash una página web completa (que son al menos 2 localizadores), de modo que 2 copias tienen el mismo valor de salida hash ?. ¿Cuál es el tamaño de un valor de salida de hash típico?¿Cómo funciona el hash de todo el contenido de una página web?
¿Son estas funciones hash capaces de poner 2 páginas web similares con ligeros errores tipográficos, etc. en el mismo cubo?
Gracias,