Constituyentes
Parece que usted quiere identificar la sentencia de constituents, que son grupos de palabras que funcionan como una sola unidad de acuerdo con la gramática de una lengua.
De hecho, cuando la lingüística intenta descubrir la gramática de un idioma, lo hace en parte mirando movement. Como en su ejemplo, aquí es donde un grupo de palabras se puede mover a una posición diferente en una oración mientras se conserva el significado de la oración.
Los elementos constitutivos pueden ser palabras individuales, frases o incluso grupos más grandes, como cláusulas enteras. Dentro de una oración, tienen una estructura jerárquica anidada. Por ejemplo, la primera frase ejemplo que diste podría ser analizado como:
(S (PP (IN On) (NP (NNP March) (CD 1)))
(NP (PRP he))
(VP (VBD was) (VP (VBN born))))
La frase completa se compone de un prepositional phrase, seguido por un noun phrase, y luego un verb phrase. La frase preposicional se puede descomponer aún más en una unidad que consiste en la palabra única 'Encendido' seguida de una frase nominal.
analizadores estructura de la frase
Para encontrar constituyentes de forma automática, es probable que desee utilizar una estructura frase analizador.Hay muchos de estos análisis sintácticos para elegir que están disponibles como código abierto, incluyendo:
Los analizadores de Stanford y Berkeley son probablemente los más fáciles de instalar y utilizar. Como se ve en Cer et al. 2010, los analizadores más precisos son Berkeley y Charniak. El analizador de Bikel es más lento y menos preciso que los demás.
Demo en línea
Hay una demostración en línea para el analizador de Stanford here. Usé la demostración para producir el análisis dado arriba de tu oración de ejemplo.
Una nota sobre la Supresión
Dentro de cada constituyente, habrá un head word. Por ejemplo, tomar el sintagma nominal:
(NP (DT The) (JJ big) (JJ blue) (NN ball))
La palabra cabeza aquí es el sustantivo ball
, y es modificado por los adjetivos big
y blue
. Si este sintagma nominal estaba incrustado en una oración, podría eliminar esos modificadores y aún así tener algo que sea consistente con, pero menos específico que, el significado de la oración original.
Dentro de frases nominales, generalmente puede eliminar los adjetivos, los nombres que no son el encabezado y las frases preposicionales anidadas.
Dentro de frases verbales y cláusulas completas, las cosas se vuelven más complicadas ya que borrar material que los servidores como argumento del verbo pueden cambiar completamente la interpretación de una oración. Por ejemplo, al eliminar the book
de He sold Jim the book
se obtiene He sold Jim
.
Estaba viendo todos estos analizadores sintácticos y encontré un artículo escrito por Daniel en http://nlp.stanford.edu/pubs/lrecstanforddeps_final_final.pdf –
Sí, ese es en realidad mi artículo :) – dmcer
Me preguntaba sobre el enlace Grammer Parser performance, pero veo en su documento que lo ha cubierto bajo el analizador de RelEx. –