2008-09-23 15 views
13

Necesito su ayuda para determinar el mejor enfoque para analizar oraciones específicas de la industria (es decir, reseñas de películas) para "positivo" frente a "negativo". He visto bibliotecas como OpenNLP antes, pero es de muy bajo nivel, solo me da la composición básica de las oraciones; lo que necesito es una estructura de orden superior: - esperemos que con las listas de palabras - esperemos entrenable en mi conjunto de datosNLP: oración cualitativamente "positiva" frente a "negativa"

, gracias!

Respuesta

23

Lo que está buscando se denomina comúnmente Sentiment Analysis. Típicamente, el análisis de sentimiento no es capaz de manejar delicadas sutilezas, como el sarcasmo o la ironía, pero le va bastante bien si le arroja un gran conjunto de datos.

El análisis de sentimiento generalmente necesita bastante preprocesamiento. Al menos tokenización, detección de límite de frase y etiquetado de parte de la voz. A veces, el análisis sintáctico puede ser importante. Hacerlo correctamente es toda una rama de la investigación en lingüística computacional, y no te aconsejaría que encuentres tu propia solución a menos que te tomes tu tiempo para estudiar el campo primero.

OpenNLP tiene algunas herramientas para ayudar en el análisis de los sentimientos, pero si quiere algo más serio, debe consultar el kit de herramientas LingPipe. Tiene algunas funciones integradas de SA y una buena tutorial. Y puede entrenarlo en su propio conjunto de datos, pero no piense que es completamente trivial :-).

Google para el término probablemente también le dará algunos recursos para trabajar. Si tiene alguna pregunta más específica, solo pregunte: estoy viendo la etiqueta nlp de cerca ;-)

+0

Sorprendentemente útil: muchas gracias, Aleksandar! –

6

Algunos enfoques para el análisis de sentimientos utilizan estrategias populares en otras tareas de clasificación de texto. El más común es transformar su revisión de película en un vector de palabra y alimentarlo en un algoritmo clasificador como datos de entrenamiento. La mayoría de los paquetes populares de minería de datos pueden ayudarte aquí. Puede echar un vistazo a este tutorial on sentiment classification que ilustra cómo hacer un experimento usando el código abierto RapidMiner toolkit.

Por cierto, hay un good data set disponible para fines de investigación relacionados con la detección de opinión sobre críticas de películas. Se basa en las opiniones de los usuarios de IMDB, y puede consultar muchos related research work en el área y cómo usan el conjunto de datos.

Vale la pena teniendo en cuenta que la eficacia de estos métodos sólo puede ser juzgado por un punto de vista estadístico, por lo que puede suponer más o menos habrá errores de clasificación y los casos donde la opinión es difícil de detectar. Como ya se ha notado en este hilo, detectar cosas como la ironía y el sarcasmo puede ser muy difícil.

Cuestiones relacionadas