Tengo instantáneas de varias páginas web tomadas 2 veces. ¿Cuál es un método confiable para determinar qué páginas web se han modificado?cómo determinar si la página web ha sido modificada
No puedo confiar en algo así como una fuente RSS, y necesito ignorar el ruido menor como el texto de fecha.
Idealmente estoy buscando una solución de Python, pero un algoritmo intuitivo también sería genial.
Gracias!
¿Se refiere a imágenes cuando dice instantáneas? O HTML histórico? –
solo el HTML - sin archivos de respaldo – hoju
¿Desea diferenciar la estructura (etiquetas html) o el contenido o ambos? – elhoim