2009-10-21 12 views

Respuesta

38

Chunking también se denomina análisis superficial y es básicamente la identificación de partes del discurso y frases cortas (como frases nominales). Part of speech tagging le dice si las palabras son sustantivos, verbos, adjetivos, etc., pero no le da ninguna pista sobre la estructura de la oración o frases en la oración. A veces es útil tener más información que solo las partes del discurso de las palabras, pero no es necesario el árbol de análisis completo que obtendría al analizar.

Un ejemplo de cuándo la fragmentación podría ser preferible es Named Entity Recognition. En NER, su objetivo es encontrar entidades con nombre, que tienden a ser sustantivo frases (aunque no siempre), por lo que le gustaría saber que presidente Barack Obama se encuentra en la siguiente frase:

El presidente Barack Obama criticó a las compañías de seguros y los bancos al exhortar a sus seguidores a presionar al Congreso para que respalde sus movimientos para modernizar el sistema de salud y revisar las regulaciones financieras. (source)

Pero no necesariamente te importa que sea el sujeto de la oración.

La fragmentación también se ha utilizado con bastante frecuencia como un paso de preproceso para otras tareas como la traducción automática basada en ejemplos, la comprensión del lenguaje natural, la generación de habla y otros.

6

Para "fragmentación de texto" en el procesamiento del lenguaje natural, consulte here (probablemente desee todas las conferencias de esta serie como una especie de "NLP 101" ...): abarca una serie de tareas como buscar grupos de nombres , encontrar grupos de verbos y completar frases de particiones -> fragmentos de varios tipos. ¡La conferencia cuya URL he citado entra en más detalles!

+0

¿Responder en otro castillo? Probablemente debería hacerse un comentario en lugar de una respuesta. –

0

Agrupando palabras en frases correlacionadas sintácticamente (fragmentos). NB: el etiquetado IOB se puede usar para indicar los límites de los fragmentos.

Cuestiones relacionadas