Muchas similitudes son equivalentes o están relacionadas con un producto escalar en una n-dimensional espacio, incluso cuando la similitud no se calcula explícitamente como tal. En estos casos, y posiblemente en otros, es probable que valores altos de a.b y b.c impliquen valores altos de a.c, pero el límite para esto no es muy bueno, no tan bueno como pensé que era al principio.
Con solo tres vectores involucrados - a, byc Creo que puede dibujar un diagrama tridimensional independientemente de la dimensionalidad del espacio subyacente, y creo que el peor caso es donde los tres vectores están en un plano, con a above byc debajo de b. En ese caso, p. para todos son vectores unitarios y a.b = b.c = 0.9, a está a unos 25 grados por encima de b y c está a unos 25 grados por debajo de él, y a.c = 0.62. De hecho, para ac = bc = x en este caso, ac = 2x^2 - 1.
En estas circunstancias, si tuviera que resolver este problema en particular, trataría de retroceder búsquedas para enumerar conjuntos de nodos muy cercanos a un nodo particular. Podría, por ejemplo, comenzar con los dos nodos más similares, y luego ejecutar una búsqueda que, en cada nivel, agregara el nodo aún no probado que estaba más cerca de uno de los nodos iniciales originales. O bien, podría compilar un solo clúster de enlace y verificar todos sus subárboles del tamaño requerido.
suena como agruparme –
¿Por qué necesita representar los datos en una matriz? ¿Qué tipo de operaciones está utilizando para extraer el subconjunto? ¿Puedes construir el subconjunto y calcular las similitudes por pares en una sola pasada? –
¿Quieres hacer clustering? – starblue