Esto es más una pregunta conceptual que una implementación real y espero que alguien pueda aclarar. Mi objetivo es el siguiente: dado un conjunto de documentos, quiero agruparlos de modo que los documentos que pertenecen al mismo clúster tengan el mismo "concepto".Agrupamiento conceptual de documentos similares en conjunto?
Por lo que entiendo, Latent Semantic Analysis permite a encontrar una aproximación rango bajo de una matriz es decir término-documento dado una matriz X, se descompondrá X como producto de tres matrices, de los cuales uno sería una matriz diagonal Σ:
Ahora, procedería por la elección de una aproximación bajo rango es decir, elegir sólo los valores top-k de Σ, y luego calcular X '. Una vez que tengo esta matriz, tengo que aplicar algún algoritmo de agrupación y el resultado final sería un conjunto de agrupaciones que agrupen documentos con conceptos similares. ¿Es esta la forma correcta de aplicar la agrupación? Quiero decir, calculando X ' y luego aplicando la agrupación en la parte superior o ¿hay algún otro método que se sigue?
También, en un poco related question mío, me dijeron que el significado de un vecino se pierde a medida que aumenta el número de dimensiones. En ese caso, ¿cuál es la justificación para agrupar estos puntos de datos de alta dimensión de X '? Supongo que el requisito de agrupar documentos similares es un requisito del mundo real, en cuyo caso, ¿cómo se puede abordar esto?
Gracias. ¿Quiere decir que trunco Vt por k filas y luego comparo columnas o quizás ejecuto k-means en las columnas para obtener los clusters finales? Solo para dejarlo en claro, no tengo ningún documento de consulta. Intento agrupar los documentos originales. Leí el artículo, excepto que me estoy confundiendo cuando me estoy acercando al final. – Legend
Replico, AFAIU, no se necesita clúster de publicaciones. Las clasificaciones se basan en X^TX o XX^T. Más o menos, solo sustituye a X = U_k * S_k * V_k^T (donde U_k, S_k, V_k, representa la partición de 'k'-los valores singulares más grandes de U, S, V = svd (X). (Para encontrar una 'k' adecuada le puede gustar google 'scree plot'). Gracias – eat
Gracias por las sugerencias. No estoy seguro si estamos en la misma página. Desde mi punto de vista, SVD o PCA son técnicas de reducción de dimensionalidad y k- Medios es una técnica de agrupamiento. Si aplico k-means directamente en mis datos de alta dimensión, la agrupación resultante puede ser errónea. Para este propósito, el paso de preproceso generalmente utiliza una técnica de reducción de dimensionalidad para reducir el número de dimensiones. y luego aplicar un algoritmo de agrupación para agrupar los datos. Consulte el siguiente comentario. – Legend