2009-04-24 28 views
12

¿Cómo se agrupan Google News y Techmeme las noticias que son similares? ¿Hay algún algoritmo bien conocido que se use para lograr esto?News clustering

Agradecemos su ayuda.

Gracias de antemano.

Respuesta

9

Una forma bastante común de agrupar texto basado en contenido es usar Principle Component Analysis en los vectores de palabras (un vector de n dimensiones donde cada palabra posible representa una dimensión y la magnitud en cada dirección, para cada vector, es el número de ocurrencias de la palabra en ese artículo en particular), seguido de un simple agrupamiento como K-Means.

+9

Gracias Andy. Aprecio tu ayuda. Mientras investigaba este tema a partir de su respuesta, encontré algunos enlaces útiles. Lo publico aquí como comentario para que cualquier persona interesada en este tema pueda tener un punto de partida. Jerárquica agrupamiento aglutinador http://nlp.stanford.edu/IR-book/html/htmledition/hierarchical-agglomerative-clustering-1.html un tutorial en la agrupación algoritmos http: //home.dei.polimi .it/matteucc/Clustering/tutorial_html/kmeans.html Introducción a la recuperación de información http://nlp.stanford.edu/IR-book/html/htmledition/irbook.html – niraj

+0

@niraj: Gracias por el enlace al tutorial que es muy informativo. – mins

5

La base algorítmica es la agrupación aglomerativa o algo similar. Pero hay una serie de heurísticas además de eso. Por ejemplo, el espacio vectorial seguramente está compuesto de palabras y frases (palabra n-grams). Limitar la búsqueda en un período de tiempo estricto también es muy importante. E identificar nombres y ponderar más el título y los títulos de los párrafos también son partes clave.

En una nota relacionada tangencialmente. Si está interesado en encontrar artículos casi duplicados, existe una serie de enfoques más fáciles de implementar, como el descrito here

0

Hay algunas maneras diferentes de hacerlo. El estándar es hacer un análisis de "bolsa de palabras" (ponderado TF-IDF), y luego hacer similitud de coseno y k-means.

he tenido éxito con este trabajo: http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851

El bueno de esto es: 1) Es incrementales, que es ideal para las noticias. Con los k-means estándar, necesitas tener todo el conjunto de datos. Con las noticias, generalmente tiene artículos que llegan con el tiempo. Los algoritmos incrementales lo resuelven. 2) Está basado en frases. Por lo tanto, se basa en frases en lugar de solo palabras.

Recientemente, ha habido técnicas que usan significado semántico en lugar de palabras (por ejemplo, extrayendo conceptos de Wikipedia o DBPedia de cada artículo, y usando eso en lugar de solo palabras).

Cuestiones relacionadas