Quiero encontrar una biblioteca o un algoritmo (así que escribo el código) para identificar los vecinos k más cercanos de una página web, donde la página web se define como un conjunto de palabras clave. Ya hice la parte donde extraigo las palabras clave.Algoritmo o biblioteca de vecino más cercano basado en palabras clave
No tiene que ser muy bueno, solo lo suficientemente bueno.
¿Alguien puede sugerir una solución o por dónde empezar? He revisado las conferencias de Yury Lifshits en el pasado, pero espero obtener algo listo, si es posible.
Se prefieren las bibliotecas de Java.
¿está mapeando las ubicaciones, o desea un algoritmo que relacione las diferentes páginas según sus palabras clave solamente? – fasseg
puede crear un gráfico ponderado no dirigido de nodos de sitio web, y las ponderaciones de borde representan la "cercanía". p.ej. cada palabra clave que dos sitios tienen en común podría ser un aumento en su peso de borde. hay muchas librerías de gráficos en Java que podrías usar. – fasseg
@smegbrains, sí, creo que eso es lo que hice. He calculado la intersección de los pares de palabras clave (que creo que es equivalente a lo que usted llama el 'ancho del borde') – Ankur