Mi objetivo es analizar algunos corpus (twitter por el momento) para contenido emocional. Justo hoy me di cuenta de que tendría sentido buscar tallos de palabras en lugar de tener una lista exhaustiva de raíces de palabras emocionales. Y entonces he estado explorando nltk.stem solo para darme cuenta de que hay 4 diferentes stemmers. Me gustaría preguntar a los lingüistas de stackoverflow si LancasterStemmer, PorterStemmer, RegexpStemmer, RSLPStemmer o WordNetStemmer son los mejores, preferiblemente con alguna justificación.¿Qué palabra lectora debo usar en nltk?
Respuesta
RSLP es para portugués. Supongo que quieres inglés. Regexp requeriría que desarrolles tus propias expresiones derivadas, por lo que creo que también se pueden ignorar. El WordnetStemmer requiere que conozca la parte del discurso de la palabra, por lo que tendría que hacer el etiquetado pos primero para poder usarlo. He usado el algoritmo de generación de porter y es bastante bueno, pero el algoritmo de lancaster es más nuevo, por lo que podría ser mejor. Es posible que desee probar el uso de una combinación de stemmers, donde elige el tallo más corto de cada tallo. De todos modos, la conclusión es que PorterStemmer es una buena opción predeterminada.
Puede ser un poco diferente de lo que está preguntando, pero la biblioteca de Nodebox Lingustics contiene una función is_emotive() que parece verificar las palabras para ver si son hipónimos recíprocos de ciertas palabras emocionales. De commonsense.py
ekman = ["anger", "disgust", "fear", "joy", "sadness", "surprise"]
other = ["emotion", "feeling", "expression"]
No es una lectora de pelusas, pero es un enfoque interesante para verificar.
- 1. ¿Debo usar LingPipe o NLTK para extraer nombres y lugares?
- 2. ¿Qué metainformaciones debo usar?
- 3. ¿Qué DB debo usar?
- 4. ¿Qué corpus de spam puedo usar en NLTK?
- 5. ¿Qué tipo de colección debo usar?
- 6. (¿Por qué) debo usar ofuscación?
- 7. OAuth/OpenID: ¿qué debo usar?
- 8. Gui toolkits, ¿qué debo usar?
- 9. ¿en qué contexto debo usar AlertDialog.Builder?
- 10. ¿Qué doble debo usar en VIM?
- 11. ¿Por qué debo usar "Recursos" en WPF?
- 12. ¿Qué debo usar en lugar de sscanf?
- 13. ¿Qué comillas debo usar en CSS?
- 14. ¿Debo usar jQuery.each()?
- 15. ¿Qué resolución de pantalla debo usar?
- 16. ¿Qué debo #incluir para usar 'htonl'?
- 17. ¿Qué algoritmo de indexación espacial debo usar?
- 18. ¿Qué configuraciones debo usar con Minidumps?
- 19. android view o surfaceView, ¿qué debo usar?
- 20. ¿Qué controlador mongo para nodo debo usar?
- 21. ¿Qué debo codificar para usar HTTPS?
- 22. ¿Qué debo hacer para usar Guice?
- 23. ¿Qué biblioteca de validación java debo usar?
- 24. ¿Qué biblioteca de gráficos .net debo usar?
- 25. ¿Qué tipo de documento debo usar?
- 26. ¿Debo usar FxCop y por qué?
- 27. ¿Qué debo usar ImageButton o Button?
- 28. ¿Qué enfoque de funciones debo usar
- 29. ¿Qué jarra de muelle debo usar?
- 30. ¿Qué debo usar, CodeContract o CuttingEdge.Conditions?