2012-01-17 4 views
5

¿Hay una biblioteca (para java) que compare la similitud entre las páginas web (HTML, similitud dom)?Java. Compara la similitud de la estructura de páginas web (dom).

En mi aplicación quiero clasificar los enlaces de un sitio web. Por ejemplo: group 1: Product detail page group 2: Category page (para sitios de compras en línea, etc.).

Para una clasificación de este tipo, la similitud de la estructura html (dom) es la mejor forma en que pienso. Por favor ayuda con respecto a esto.

+0

Parece demasiado ambiguo y específico para que exista una biblioteca para esto (la definición de "similitud" es la principal fuente de ambigüedad). – Viruzzo

+0

"una biblioteca" o "una función de una biblioteca" o "una aplicación Java simple" será suficiente para mi aplicación. – cuneytykaya

+0

Si desea ayuda para diseñar una aplicación de este tipo, debe publicar más detalles y explicar qué ha intentado/qué no funcionó. Nuevamente, no cuente con algo preexistente. – Viruzzo

Respuesta

0

No es exactamente lo que preguntas, pero si HTMl es XML válido puedes usar XMLUnit, es very simple para comparar similitud con él.

Cuestiones relacionadas