2011-11-12 24 views
7

Así que sé que este es un tipo de tema de gran tamaño, pero debo aceptar un fragmento de texto y extraer las palabras clave más interesantes de él. El texto proviene de subtítulos de TV, por lo que el tema puede abarcar desde noticias hasta deportes y referencias de la cultura pop. Es posible proporcionar el tipo de espectáculo del que proviene el texto.Cómo extraer palabras clave de un bloque de texto en Haskell

Tengo una idea para unir el texto con un diccionario de términos que sé que es interesante de alguna manera.

¿Qué bibliotecas para Haskell pueden ayudarme con esto?

Suponiendo que tengo un diccionario de términos interesantes y una base de datos para almacenarlos, ¿hay algún enfoque particular que recomiende para hacer coincidir palabras clave dentro del texto?

¿Existe un enfoque obvio en el que no estoy pensando?

Respuesta

1

Para ampliar bpgergo respuesta (pero no tengo ninguna información específica de haskell), es bastante sencillo ingresar documentos en una base de datos relacional e indexarlos con SOLR/lucene o sphinx, cualquiera de los cuales debería tener un generador de texto en su configuración predeterminada/sugerida. Y luego puede buscar en qué documentos tienen pares, triples, etc. de su lista de "términos interesantes"

Puede consultar Reconocimiento de entidad con nombre, Detección de frase estadísticamente inusual, generación automática de etiquetas, temas como ese. LingPipe es un buen punto de partida, también estos libros:

http://alias-i.com/lingpipe/demos/tutorial/read-me.html

http://www.manning.com/marmanis/excerpt_contents.html

http://www.manning.com/alag/excerpt_contents.html

Cuestiones relacionadas