Estoy trabajando en un proyecto donde necesito analizar una página de texto y colecciones de páginas de texto para determinar palabras dominantes. Me gustaría saber si hay una biblioteca (prefiero C# o java) que manejará el trabajo pesado para mí. Si no, ¿hay algún algoritmo o múltiple que logre mis objetivos a continuación?Algoritmos o bibliotecas para análisis textual, específicamente: palabras dominantes, frases en texto y colección de texto
Lo que quiero hacer es similar a las nubes de palabras creadas a partir de una fuente de URL o RSS que encuentre en la web, excepto que no quiero la visualización. Se utilizan todo el tiempo para analizar los discursos de los candidatos presidenciales para ver cuál es el tema o las palabras más usadas.
La complicación es que tengo que hacer esto en miles de documentos cortos, y luego colecciones o categorías de estos documentos.
Mi plan inicial era analizar el documento, luego filtrar las palabras comunes - de, el, él, ella, etc. Luego contar el número de veces que aparecen las palabras restantes en el texto (y la colección/categoría general))
El problema es que en el futuro, me gustaría manejar formas derivadas, plurales, etc. También me gustaría ver si hay una manera de identificar frases importantes. (En lugar de contar una palabra, el recuento de una frase es de 2-3 palabras juntas)
Se agradece cualquier orientación sobre una estrategia, bibliotecas o algoritmos que ayuden.
Agregué la etiqueta "natural-language" a la publicación. –