2011-04-05 15 views
13

¿Hay alguna manera de obtener el tema de una oración usando OpenNLP? Estoy tratando de identificar la parte más importante de la oración de un usuario. En general, los usuarios enviarán oraciones a nuestro "motor" y queremos saber exactamente cuál es el tema central de esa oración.¿Hay alguna forma de obtener el tema de una oración usando OpenNLP?

Actualmente estamos utilizando OpenNLP a:

  1. Chunk la sentencia
  2. Identificar el sintagma nominal, verbos, etc., de la sentencia
  3. Identificar todos los "temas" de la sentencia
  4. (¡NO HECHO TODO!) Identifique el "tema principal" de la oración

Háganme saber si tiene alguna idea brillante ...

+2

Hay dos significados de 'sujeto'. ¿Te refieres a un sujeto gramatical (por ejemplo, cómo una oración tiene un sujeto, un verbo y un objeto) o te refieres a qué se refiere la oración en un sentido más general? – Stompchicken

Respuesta

17

Dependencia Analizador

Si usted está interesado en la extracción de las relaciones gramaticales como lo palabra o frase es el sujeto de una oración, que realmente debe utilizar un dependency parser. Si bien OpenNLP admite el análisis sintáctico de estructuras, no creo que todavía tenga análisis de dependencias.

Opensource Software

Paquetes escritos en Java que soportan análisis de dependencias incluyen:

De estos, el Stanford Parser es el más preciso. Sin embargo, algunas configuraciones de MaltParser pueden ser increíblemente rápidas (Cer et al. 2010).

+1

Stanford Parser es más fácil de usar, si planea usar Java – damned

2

Para el tema gramatical, debe confiar en la información de configuración en el árbol. Si el análisis se ve algo así como (TOP (S (NP ----) (VP ----))), entonces puede tomar el NP como sujeto; a menudo, aunque no siempre, ese será el caso. Sin embargo, solo algunas oraciones tendrán esta configuración; uno puede imaginar fácilmente estructuras con sujetos que no están en esa posición - construcciones pasivas, por ejemplo.

Sin embargo, probablemente sea mejor utilizar MaltParser.

Cuestiones relacionadas