Me preguntaba si alguien sabía dónde podía obtener diccionarios de palabras positivas y negativas. Estoy investigando el análisis de sentimientos y esta es una parte crucial de esto.Sentiment Analysis Dictionaries
Respuesta
El Sentiment Lexicon, en la Universidad de Pittsburgh podría ser lo que buscas. Es un léxico de aproximadamente 8,000 palabras con sentimiento positivo/neutral/negativo. Se describe con más detalle en this paper y se publica bajo la GPL.
This paper from 2002 describe un algoritmo para derivar dicho diccionario a partir de muestras de texto de forma automática, utilizando solo dos palabras como conjunto inicial.
Llegando un poco tarde solo señalaré que los diccionarios tienen una contribución limitada para el análisis de sentimiento. Algunas oraciones que contienen sentimientos no contienen ninguna palabra de "sentimiento", p. Ej. "leer el libro", que podría ser positivo en una reseña del libro, mientras que negativo en una reseña de la película. Del mismo modo, la palabra de sentimiento "impredecible" podría ser positiva en el contexto de un thriller pero negativa al describir el sistema de interrupciones del Toyota.
y hay muchos más ...
Puntos realmente buenos. Afortunadamente para mí, estoy lidiando solo con ciertas fuentes de noticias que se abstendrían de utilizar la jerga y en general solo afirman hechos. Sin embargo, definitivamente es algo de lo que preocuparse, gracias. – user387049
Creo que al usar diccionarios sin contexto, la esperanza es que, si bien puede haber una cierta cantidad de ruido (clasificación errónea) para oraciones individuales, habrá suficiente señal en conjunto para ser significativa. Sin embargo, no estoy seguro de cómo se podría probar esta esperanza con rigor estadístico. – mcduffee
Profesor Bing Liu proporcionar un léxico Inglés de alrededor de 6800 palabras, se puede descargar de forma este enlace: Opinion Mining, Sentiment Analysis, and Opinion Spam Detection
AFINN se pueden encontrar aquí y también crearlo dinamicamente. Al igual que cada vez que se agrega una palabra desconocida + ve, añádelo con +1. Al igual que el banano es una nueva palabra + ve y aparece dos veces, se convertirá en +2.
¡Cuantos más artículos y datos tenga su diccionario se volverá más fuerte!
Ese archivo es realmente un archivo de juguete, creado para una asignación de clase. En mi opinión, sería un error usarlo para el trabajo real. – mcduffee
@mcduffee ¿Elaborar? – jbird
@jbird No estoy seguro de qué puedo agregar. El archivo se creó para una asignación de clase, donde el texto para evaluar se adaptó a las palabras de la lista. Le faltan muchas, muchas palabras (la lista completa tiene menos de 2500 palabras). Intentar utilizarlo con texto que no se ha adaptado a las palabras de la lista, me temo, resultaría en evaluaciones del sentimiento menos precisas que las que proporcionaría una lista más completa. – mcduffee
Sentiment Analysis (Opinión Minería) léxicos
- MPQA Subjectivity Lexicon
- Bing Liu and Minqing Hu Sentiment Lexicon
- SentiWordNet (Incluido en NLTK)
- VADER Sentiment Lexicon
- SenticNet
- LIWC (not free)
- Harvard Inquirer
- ANEW
Fuentes:
- Keenformatics - Sentiment Analysis lexicons and datasets (mi blog)
- Hutto, C. J., and Eric Gilbert. "Vader: A parsimonious rule-based model for sentiment analysis of social media text." Eighth International AAAI Conference on Weblogs and Social Media. 2014.
- Sentiment Symposium Tutorial by Christopher Potts
- La experiencia personal
El directorio diccionario de Harvard-IV http://www.wjh.harvard.edu/~inquirer/homecat.htm tiene al menos dos conjuntos de diccionarios, listas para usar para la orientación positiva/negativa.
Puede utilizar Vader sentimiento léxico
from nltk.sentiment.vader import SentimentIntensityAnalyzer
sentence='APPle is good for health'
sid = SentimentIntensityAnalyzer()
ss = sid.polarity_scores(sentence)
print(ss)
se le dará la polaridad de la pena.
de salida:
{'compound': 0.4404, 'neu': 0.58, 'pos': 0.42, 'neg': 0.0}
- 1. Simple Sentiment Analysis
- 2. Lista de herramientas de procesamiento del lenguaje natural en cuanto a Sentiment Analysis - ¿Cuál te recomiendas
- 3. Python getattr equivalent for dictionaries?
- 4. Software Development Analysis
- 5. C# Code Analysis CA2000
- 6. Tutorial Web Capacity Analysis (WCAT)
- 7. Algoritmos para Big O Analysis
- 8. WCF Trace Log analysis - help
- 9. Python's hasattr on list values of dictionaries siempre devuelve false?
- 10. MS Analysis Services OLAP API para Python
- 11. FxCop/Code Analysis con VS2010 Ultimate
- 12. Analysis Services Only Autenticación de Windows
- 13. SQL Analysis Services OLAP TIME dimensión
- 14. Analizando la advertencia de FxCop/Code Analysis CA1506: AvoidExcessiveClassCoupling
- 15. Eclipse 3.7 C/C++ Code Analysis "codan" marcar errores falsos
- 16. ¿Por qué Code Analysis no advierte sobre NotImplementedException?
- 17. SS Analysis Services (SSAS) Herramienta de comparación de esquemas DB?
- 18. ¿Por qué mi código es más rápido cuando se ejecuta con Performance Analysis?
- 19. ¿Cómo uso MySQL como origen de datos en Microsoft SQL Server Analysis Services?
- 20. La mejor forma de acceder al Cubo de MS Analysis Services desde Java
- 21. Visual Studio 2010 Code Analysis CA1305 (Specify IFormatProvider) regla no funciona para TryParse métodos
- 22. No se puede conectar a SQL Server Analysis Services aunque parece estar ejecutándose
- 23. VS2010 Code Analysis, ¿hay alguna forma de corregir automáticamente ciertas advertencias?
- 24. ¿Cómo obtener FxCop tiene el mismo conjunto de reglas que el de Visual Studio Code Analysis?
- 25. ¿Por qué obtengo Code Analysis CA1062 en un parámetro out en este código?
- 26. ¿Cómo ejecutar Visual Studio Code Analysis desde la línea de comando?
- 27. ¿Qué hace Visual Studio Code Analysis Lines of Code con HTML, CSS y Javascript?
- 28. Cómo usar StringWriter y HtmlWriter juntos sin advertencias de Code Analysis
- 29. ¿Cuáles son las diferencias entre StyleCop y Code Analysis cuando se habla de las reglas de cada uno?
- 30. SQL Server 2012 - Analysis Services no se incluye en la "Selección de características" de la pantalla del instalador
El problema es que este enfoque utiliza AltaVista golpea para calcular PMI-IR, así que no creo que es óptimo para alguien que quiere empezar. Además, es un enfoque no supervisado, y sus resultados aún no son interesantes si se los compara con los enfoques supervisados. –