2011-11-28 18 views
8

estoy usando la PNL núcleo de Stanford y usar esta línea para cargar algunos módulos para procesar mi texto:Fragmentar un texto con el Stanford-PNL

props.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref"); 

Es allí un módulo que puedo cargar a trozos ¿el texto?

¿O alguna sugerencia con una forma alternativa de utilizar el stanford core para cortar algo de texto?

Gracias

+0

Por "fragmentación" lo que significa que está eligiendo cosas como base de trozos de NP y grupos de verbos? ¿O quiere decir dividir un texto grande en segmentos, como agrupaciones relacionadas de texto, como comentarios de blog individuales? –

+1

Tengo la misma pregunta; en mi caso, me refiero a extraer frases nominales, por ejemplo, – humanzz

Respuesta

5

Creo que la salida del analizador se puede utilizar para obtener trozos NP. Eche un vistazo a la representación sin contexto en el Stanford Parser website que proporciona salida de ejemplo.

5

Para utilizar fragmentación con Stanford PNL se pueden utilizar los siguientes paquetes:

  • YamCha: SVM basado en NP-chunker, también se pueden utilizar para el etiquetado POS, NER, etc. C/C++ de código abierto. Won CoNLL 2000 tarea compartida. (Menos automático que un etiquetador de POS especializado para un usuario final.)
  • Mark Greenwood's Sustantivo Frase Chunker: Una reimplementación Java de Ramshaw y Marcus (1995).
  • fnTBL: una implementación rápida y flexible de Transformation-Based Learning en C++. Incluye un rotulador de POS, pero también modelos de fragmentación NP y fragmentación general.

Fuente: http://www-nlp.stanford.edu/links/statnlp.html#NPchunk

+2

. Estos son solo paquetes para dividir NP. Por ejemplo: Noun Phrase Chunker de Mark Greenwood, proporciona una envoltura GATE, pero no cualquier envoltorio para usar el árbol de análisis sintáctico de StanfordNLP, etc. Creo que se puede hacer al menos una fragmentación basada en expresiones regulares; puede haber un anotador de trozos personalizado que se agregue a la interconexión. Decir un anotador personalizado usando TokenRegex en POS, poner después de "analizar" en la tubería. Tal que el árbol de análisis sintáctico puede tener un nodo más "NNP" debajo del cual están las fichas fragmentadas. Espero que alguien haya hecho eso en alguna parte para coreNLP. – aditrip

Cuestiones relacionadas