2009-11-25 8 views
10

¿Cómo puedo decirle a NLTK que trate el texto en un idioma en particular?¿puede funcionar NLTK/pyNLTK "por idioma" (es decir, no inglés), y cómo?

De vez en cuando escribo una rutina NLP especializada para etiquetar POS, tokenizar y etc. en un dominio de texto no inglés (pero aún europeo).

Esta pregunta parece abordar solamente corpus diferente, no el cambio en el código/ajustes: POS tagging in German

Alternativamente, ¿existen módulos especializados en hebreo/español/polaco PNL para Python?

Respuesta

8

No estoy seguro de a qué se refiere como los cambios en el código/configuración. NLTK se basa principalmente en el aprendizaje automático y la "configuración" generalmente se extrae de los datos de entrenamiento.

Cuando se trata de etiquetado POS, los resultados y el etiquetado dependerán del etiquetador que use/forme. Si entrena el suyo, necesitará, por supuesto, algunos datos de entrenamiento español/polaco. La razón por la que puede ser difícil encontrarlos es la falta de material estándar dorado disponible públicamente. Hay herramientas por hacer que hacen esto, pero esta no es para python (http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/).

El tokenizer nltk.tokenize.punkt.PunktSentenceTokenizer tokenizará oraciones de acuerdo con límites de oraciones multilingües cuyos detalles se pueden encontrar en este documento (http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485).

+0

gracias. el tokenizador de oración punkt parece la dirección correcta. –

+0

¿Cómo se consigue Treetagger para trabajar? http://stackoverflow.com/questions/15503388/treetagger-installation-successful-but-cannot-open-par-file – alvas

Cuestiones relacionadas