El etiquetado de voz (POS) es muy específico para un idioma [natural] particular. NLTK incluye muchos marcadores diferentes, que usan distintas técnicas para inferir la etiqueta de un token dado en un token dado. La mayoría (pero no todos) de estos etiquetadores usan un modelo estadístico como el dispositivo principal o único para "hacer el truco". Tales etiquetadores requieren algunos "datos de entrenamiento" sobre los cuales construir esta representación estadística del lenguaje, y los datos de entrenamiento vienen en forma de corpus.
La "distribución" NTLK incluye muchos de estos corpora, así como un conjunto de "lectores corpora" que proporcionan una API para leer diferentes tipos de corpora. No conozco el estado de cosas en NTLK propiamente dicho, y si esto incluye algún corpus alemán. Sin embargo, puede encontrar algunos corpus libres que luego deberá convertir a un formato que satisfaga el lector de corpus NTLK adecuado, y luego puede usar esto para entrenar un etiquetador de POS para el idioma alemán.
Incluso puedes crear tu propio corpus, pero es un trabajo extenuante; si trabajas en una universidad, tienes que encontrar formas de sobornar y obligar a los estudiantes a hacer eso por ti ;-)
Una de las ventajas es posible explotar es que todos los sustantivos se capitalizan en alemán. –
Etiqueta 'german' eliminada como parte de la [** 2012 limpieza **] (http://meta.stackexchange.com/questions/128315/the-great-stack-overflow-tag-question-cleanup-of-2012) –