Tengo POS etiquetado algunas palabras con nltk.pos_tag(), por lo que se les da etiquetas de árbol de árbol. Me gustaría hacer una lematización de estas palabras utilizando las etiquetas POS conocidas, pero no estoy seguro de cómo. Estaba buscando Wordmat lemmatizer, pero no estoy seguro de cómo convertir las etiquetas de POS treebank en etiquetas aceptadas por el lematizador. ¿Cómo puedo realizar esta conversión simplemente, o hay un lemmatizador que usa etiquetas de árbol?¿Lemmatizar palabras etiquetadas de POS con NLTK?
Respuesta
El lematizador de wordnet solo conoce cuatro partes del discurso (ADJ, ADV, NOUN y VERB) y solo las reglas de SUSTANTIVO y VERBO hacen algo especialmente interesante. El nombre de las partes del discurso en el conjunto de etiquetas de treebank comienza con NN, todas las etiquetas de verbos comienzan con VB, las etiquetas de adjetivo comienzan con JJ, y las etiquetas de adverbio comienzan con RB. Por lo tanto, la conversión de un conjunto de etiquetas para el otro es bastante fácil, algo así como:
from nltk.corpus import wordnet
morphy_tag = {'NN':wordnet.NOUN,'JJ':wordnet.ADJ,'VB':wordnet.VERB,'RB':wordnet.ADV}[penn_tag[:2]]
¿qué pasa con los adjetivos satelitales? – user1048677
Los adjetivos de satélite se tratan de la misma manera que los adjetivos comunes. – rmalouf
¿de dónde saca el [penn_tag]? la lista de etiquetas Treebank? – Ksofiac
- 1. Palabras coincidentes con el analizador de fragmentos NLTK
- 2. ¿Qué es el etiquetador NLTK POS pidiéndome que descargue?
- 3. etiquetado POS en alemán
- 4. Cómo quitar las palabras vacías utilizando NLTK o pitón
- 5. POS Pattern Filter?
- 6. Python nltk: Encuentre colocaciones sin palabras separadas por puntos
- 7. etiquetado personalizado con nltk
- 8. Cómo obtener la forma infinitiva del verbo usando NLTK (etiquetado pos)
- 9. Constantes etiquetadas en LaTeX
- 10. Omitir oraciones usando POS-etiquetado
- 11. Tweet Classifier Feature-Selection NLTK
- 12. La extracción de un conjunto de palabras con el pitón/NLTK, a continuación, comparándolo con un diccionario Inglés
- 13. Creando un nuevo corpus con NLTK
- 14. Interactuar con POS - Dispositivos terminales y sistemas de conmutación bancaria
- 15. ¿Qué palabra lectora debo usar en nltk?
- 16. Creando un corpus categorizado personalizado en NLTK y Python
- 17. Cómo implicar a un etiquetador de voz parcial (POS)
- 18. Tokenizing unicode usando nltk
- 19. NLTK en IronPython de WPF
- 20. NLTK y detección de idioma
- 21. Barras etiquetadas individualmente para gráficos de barras en matplotlib/Python
- 22. Reconocimiento de entidad con nombre NLTK en holandés
- 23. Usando el modelo de MaltParser pre-entrenado con NLTK
- 24. Sinónimo general y parte del procesamiento de voz usando nltk
- 25. NLTK piensa que los imperativos son sustantivos
- 26. C# SerialPort - emular el teclado pos
- 27. NLTK Chunking y caminar en el árbol de resultados
- 28. ¿Intenta usar MEGAM como un clasificador NLTK basado en un marcador de depósito?
- 29. Ejemplos prácticos de uso de NLTK
- 30. TF-IDF Uso simple - NLTK/Scikit Learn
leí esto como 'POS humeante' – fizzer
algunos consejos también están disponibles aquí http://stackoverflow.com/questions/15586721/wordnet-lemmatization-and-pos-tagging-in-python – Sadik