Buen día, Estoy intentando escribir una aplicación de análisis sentimental en python (usando el clasificador naive-bayes) con el objetivo de categorizar frases de noticias como positivas o negativas. Y estoy teniendo problemas para encontrar un corpus apropiado para eso. Intenté usar "General Inquirer" (http://www.wjh.harvard.edu/~inquirer/homecat.htm) que funciona bien pero tengo un gran problema allí. ya que es una lista de palabras, no una lista de frases que observo el siguiente problema cuando se trata de etiquetar la siguiente frase:Frase corpus para análisis sentimental
No se espera que gane.
Esta frase se clasifica como positiva, lo que es incorrecto. La razón de esto es que "ganar" es positivo, pero "no" no tiene ningún significado ya que "no ganar" es una frase. ¿Alguien puede sugerir un corpus o una solución alternativa para ese problema? Su ayuda y comprensión es muy apreciada.
Como nota al margen: ¿Espera Bayes ingenuo para trabajar aquí? Digamos que todas nuestras características son "ganar", "perder" y "no", y "ganar" y "perder" aparecen en proporciones iguales. Entonces, ya sea "ganar" o "no ganar" se clasificarán erróneamente. –
Creo que es por eso que pregunta sobre el uso de frases como características. – phs
Creo que está usando palabras como características para clasificar frases ... –