¿Cuáles son algunas de las técnicas buenas para detectar si una página web es igual a otra?¿Cómo determinar si dos páginas web son iguales?
Por igual, no me refiero a char-para-char equivalente (eso es fácil), pero es lo suficientemente robusta como para ignorar algo así como una fecha/hora actual en la página, etc.
por ejemplo, tome una Yahoo! Artículo de noticias cargar la página, abrir la misma página 10 minutos más tarde en otro navegador. Baring reescribe, esas páginas tendrán algunas diferencias (sellos de tiempo, posiblemente cosas como anuncios, posiblemente cosas como historias relacionadas), pero un ser humano podría mirar a los dos y decir que son lo mismo.
Nota No estoy tratando de corregir (o confiar) en la normalización de URL. Es decir, descubriendo que foo.html & foo.html? Bar = bang son lo mismo.
¿Qué pasó al final? – RJHunter