2009-06-15 27 views
6

Estoy buscando aplicar puntuaciones (positivas, negativas o neutrales) a frases cortas de texto. A menos que analice los emoticones y haga suposiciones basadas en su uso, no estoy seguro de qué más probar. ¿Puede alguien proporcionar ejemplos, documentos de investigación, artículos, etc. que tomen un análisis más léxico de este problema?Determinación del "estado de ánimo" de las frases textuales a través del análisis léxico

Estoy pensando en cosas como el uso del adverbio, el uso indebido/repetición de la puntuación, los errores ortográficos y gramaticales podrían ser indicadores decentes del estado de ánimo del autor en un sentido casi binario (bueno o malo).

+0

Hay una pregunta similar: http://stackoverflow.com/questions/933212/is-it-possible-to-guess-a-users-mood-based-on-the-structure-of-text – Helen

+0

Incluso los humanos tiene problemas para determinar el estado de ánimo/tono en las conversaciones de estilo de correo electrónico/sms. A menos que esté hablando de analizar ficción donde se usan palabras clave (ejemplos: "gritó" y "furioso"), entonces tiene su trabajo hecho para usted. – Alex

Respuesta

3

Esto suena como una tarea de clasificación binaria bastante clara, donde puede simplificar el problema a positivo o negativo, y luego tomar las decisiones más entrópicas o las que no han alcanzado un umbral de certeza a través de la probabilidad establecida en masa neutral.

Su mayor obstáculo será obtener datos de entrenamiento para un método de aprendizaje de máquina estocástico. Puede hacerlo fácilmente con un modelo de máxima entropía disponible, como Toolkit for Advanced Discriminative Modeling o Mallet. Las características que describió solo tendrían que formatearse según las entradas que usan estos modelos.

Para obtener datos de capacitación, puede realizar algún tipo de crowdsourcing de pago como Mechanical Turk de Amazon o simplemente hacerlo usted mismo, tal vez con la ayuda de un amigo. Necesitará un lote de datos para esto. Puede mejorar la fuerza predictiva de su modelo a la luz de la escasez de datos con enfoques como el aprendizaje activo, el ensemble o el refuerzo, pero es importante probarlos de la mejor manera posible con los datos del mundo real y elegir lo que funciona mejor en un entorno aplicación práctica.

Si está buscando artículos para esto, querrá consultar el término "análisis de sentimientos" en Google Scholar. The Association for Computational Linguistics tiene una gran cantidad de documentos gratuitos y útiles de conferencias y revistas que abordan el problema desde un punto de vista tanto lingüístico como algorítmico. También buscaría sus archivos. ¡Buena suerte!

0

Eso suena como una idea realmente interesante. Me interesaría ver lo que viene de ella.

diría que puntuacion es un indicador que podría utilizar ...

  • ? - Una pregunta
  • !?!? (o alguna variante) Incredulidad
  • ! con frases como estúpida, idiota, etc ... - Ira
  • ... - Vacilación, sarcasmo

También puede tratar de recoger en acrónimos comunes como ...

  • LOL - risa (positivo)
  • WTF, OMG - incredulidad, choque
  • OMI - Pensamiento, explicando

Esto es claramente una cosa bastante compleja que está buscando hacer, pero suena muy interesante.

2

Bueno, latent semantic analysis (tiene un paper también) parece el campo de investigación bien establecido más cercano al que está hablando. Está menos 'orientado al valor' y más centrado en documentos más grandes, pero aún puede tener cierta relevancia para su problema.

Cuestiones relacionadas