Estoy usando su etiquetado POS predeterminado y tokenización predeterminada ... y parece suficiente. Me gustaría su chunker predeterminado también.¿Cuál es el chunker predeterminado para el kit de herramientas NLTK en Python?
Estoy leyendo el libro de herramientas de NLTK, pero no parece que tengan un chunker predeterminado?
¿Qué pasa si no estoy muy preocupado por named_entities, pero fragmentar en general. Por ejemplo, "el perro amarillo" es un pedazo, y "se está ejecutando" es un pedazo. – TIMEX
Sí, por eso, no hay ningún defecto que yo sepa (aunque no sé todo sobre nltk, sin duda). Podría usar un RegexpChunkParser, aunque deberá desarrollar las reglas usted mismo. Aquí hay un ejemplo: http://gnosis.cx/publish/programming/charming_python_b18.txt – ealdent