2011-04-30 11 views
5

A veces escuché esp en el contexto de la recuperación de información, motores de búsqueda, rastreadores, etc. que podemos detectar páginas duplicadas mediante el contenido de hash de una página. ¿Qué tipo de funciones hash son capaces de hash una página web completa (que son al menos 2 localizadores), de modo que 2 copias tienen el mismo valor de salida hash ?. ¿Cuál es el tamaño de un valor de salida de hash típico?¿Cómo funciona el hash de todo el contenido de una página web?

¿Son estas funciones hash capaces de poner 2 páginas web similares con ligeros errores tipográficos, etc. en el mismo cubo?

Gracias,

Respuesta

8

Cualquier función hash, dadas dos entradas x y y S.T. x = y, por definición, devolverán el mismo valor para ellos. Pero si usted quiere hacer este tipo de detección de duplicados correctamente, usted necesitará:

  • un criptográficamente fuerte función hash como MD5, SHA-1 o SHA-512, que prácticamente nunca asignar dos páginas diferentes a el mismo valor para que pueda suponer que un valor hash igual significa entrada igual, o
  • a locality sensitive hash function si desea detectar duplicados cercanos.

Cuál usar realmente depende de sus necesidades; Los hashes de cifrado son inútiles en la detección casi duplicada, ya que están diseñados para mapear casi duplicados a valores muy diferentes.

1

pienso que usted está buscando hash difusa donde sólo partes del documento son ordenadas en lugar de todo el documento a la vez.

Cuestiones relacionadas