Estoy tratando de encontrar colocaciones con NLTK en un texto usando el método incorporado.Python nltk: Encuentre colocaciones sin palabras separadas por puntos
Ahora estoy teniendo el siguiente texto de ejemplo (prueba y foo siguen unos a otros, pero no existe una frontera frase en el medio):
content_part = """test. foo 0 test. foo 1 test.
foo 2 test. foo 3 test. foo 4 test. foo 5"""
resultado de tokenización y collocations()
es el siguiente:
print nltk.word_tokenize(content_part)
# ['test.', 'foo', 'my', 'test.', 'foo', '1', 'test.',
# 'foo', '2', 'test.', 'foo', '3', 'test.', 'foo', '4', 'test.', 'foo', '5']
print nltk.Text(nltk.word_tokenize(content_part)).collocations()
# test. foo
Cómo se puede Evito NLTK de:
- Incluyendo el punto en mi tokenización
- no encuentran colocaciones() sobre las fronteras de oraciones?
Por lo tanto, en este ejemplo no debería imprimir ninguna colocación, pero supongo que puede imaginar textos más complicados donde también hay colocaciones dentro de las oraciones.
puedo adivinar que tengo que usar el Punkt frase segmentación de, pero luego no sé cómo ponerlos juntos de nuevo para encontrar colocaciones con NLTK (collocation()
parece ser más poderosa que la materia apenas contando a mí mismo).