Actualmente estoy tratando de construir un etiquetador de TPV de propósito general (o tan general como sea práctico) con NLTK. He incursionado en el corpus marrón y en el banco de los árboles para entrenarme, pero probablemente me estoy conformando con el corpus del banco de árboles.¿Intenta usar MEGAM como un clasificador NLTK basado en un marcador de depósito?
Aprendiendo sobre la marcha, estoy encontrando que el clasificador POS taggers es el más preciso. El clasificador de entidad máxima está destinado a ser el más preciso, pero creo que utiliza tanta memoria (y tiempo de procesamiento) que tengo que reducir significativamente el conjunto de datos de entrenamiento, por lo que el resultado final es menos preciso que usar el clasificador Naive Bayes predeterminado.
Se ha sugerido que use MEGAM. NLTK tiene algo de apoyo para MEGAM, pero todos los ejemplos que he encontrado son para clasificadores generales (por ejemplo, un clasificador de texto que usa un vector de funciones de palabras), en lugar de un marcador de POS más específico. Sin tener que volver a crear mi propio extractor y compilador de características POS (es decir, prefiero usar el que ya está en NLTK), ¿cómo puedo usar el clasificador MEGAM MaxEnt? Es decir. la forma en que se puede caer en algún código MaxEnt existente que es a lo largo de las líneas de:
maxent_tagger = ClassifierBasedPOSTagger(train=training_sentences,
classifier_builder=MaxentClassifier.train)
¿Has leído: http://streamhacker.com/2008/11/03/part-of-speech-tagging-with-nltk-part-1/? En general, es un buen vistazo a los etiquetadores de POS si mira los cuatro artículos. – perimosocordiae
Sí, tengo su libro. El blog tiene algunas comparaciones de eficiencia interesantes, y aún podría agregar un etiquetador Brill al final del clasificador (como se sugiere); pero las publicaciones no parecen mencionar a MEGAM? Tal vez deba ver el código NLTK MaxEnt y aplicar ingeniería inversa o duplicarlo para usar MEGAM. – winwaed