¿Cómo puedo decirle a NLTK que trate el texto en un idioma en particular?¿puede funcionar NLTK/pyNLTK "por idioma" (es decir, no inglés), y cómo?
De vez en cuando escribo una rutina NLP especializada para etiquetar POS, tokenizar y etc. en un dominio de texto no inglés (pero aún europeo).
Esta pregunta parece abordar solamente corpus diferente, no el cambio en el código/ajustes: POS tagging in German
Alternativamente, ¿existen módulos especializados en hebreo/español/polaco PNL para Python?
gracias. el tokenizador de oración punkt parece la dirección correcta. –
¿Cómo se consigue Treetagger para trabajar? http://stackoverflow.com/questions/15503388/treetagger-installation-successful-but-cannot-open-par-file – alvas