2011-11-20 13 views
6

Las expresiones regulares del analizador de fragmentos de NLTK pueden coincidir con las etiquetas de POS, pero ¿también pueden coincidir con palabras específicas?
Supongamos que queremos dividir cualquier estructura con un sustantivo seguido del verbo "izquierda" (llamar a este patrón L). Por ejemplo, la oración "the \ DT dog \ NN left \ VB" debe fragmentarse como
(S (DT the) (L (NN dog) (VB left))), pero la oración "the \ DT dog \" NN slept \ VB "no se fragmentaría en absoluto.Palabras coincidentes con el analizador de fragmentos NLTK

No he podido encontrar ninguna documentación sobre la sintaxis regex fragmentada, y todos los ejemplos que he visto solo coinciden con las etiquetas POS.

Respuesta

1

que tenía un problema similar y después de darse cuenta de que el patrón de expresión sólo examinará las etiquetas, me cambiaron la etiqueta en la pieza que estaba interesado en.

Por ejemplo, yo estaba tratando de coincidir con el nombre del producto y la versión y el uso de una regla de fragmento como \ NNP + \ CD funcionó para "Internet Explorer 8.0" pero falló en "Internet Explorer 8.0 SP2" donde etiquetó SP2 como NNP.

Tal vez podría haber entrenado un etiquetador POS, pero en lugar de eso simplemente cambié la etiqueta a SP y luego una regla de fragmento como \ NNP + \ CD \ SP * coincidirá con cualquier ejemplo.

+0

¿Puede dar un ejemplo a lo largo de las líneas de: chunkGram = r "" "Chunk: {? * * + }" "" – ProfVersaggi

Cuestiones relacionadas