Me estoy embarcando en un proyecto de PNL para el análisis del sentimiento.¿Análisis de opinión con pitón NLTK para oraciones que usan datos de muestra o servicio web?
He instalado con éxito NLTK para Python (parece una gran pieza de software para esto). Sin embargo, tengo problemas para entender cómo se puede usar para llevar a cabo mi tarea.
Aquí es mi tarea:
- comienzo con una larga pieza de datos (digamos varios cientos de tweets en el tema de la elección del Reino Unido de su servicio web)
- me gustaría romper esto en oraciones (o información de no más de 100 caracteres) (supongo que puedo hacer esto en python ??)
- Luego buscar a través de todas las oraciones para instancias específicas dentro de esa oración, por ejemplo "David Cameron"
- entonces me gustaría para comprobar si hay sentimiento positivo/negativo en cada frase y lo considero como consecuencia
NB: No estoy realmente preocupado demasiado por la precisión porque mis conjuntos de datos son grandes y también no me preocupa demasiado el sarcasmo.
Éstos son los problemas que estoy teniendo:
Todos los conjuntos de datos que puedo encontrar, por ejemplo, los datos de revisión de la película de corpus que viene con NLTK no están en formato de servicio web. Parece que ya se ha procesado algo. Por lo que puedo ver, el procesamiento (por stanford) se hizo con WEKA. ¿No es posible que NLTK haga todo esto solo? Aquí todos los conjuntos de datos ya se han organizado en positivo/negativo, como p. Ej. dataset de polaridad http://www.cs.cornell.edu/People/pabo/movie-review-data/ ¿Cómo se hace esto? (para organizar las oraciones por sentimiento, ¿es definitivamente WEKA? ¿o algo más?)
No estoy seguro de entender por qué WEKA y NLTK se usarían juntos. Parece que hacen más de lo mismo. Si estoy procesando los datos con WEKA primero para encontrar el sentimiento ¿por qué necesitaría NLTK? ¿Es posible explicar por qué esto podría ser necesario?
He encontrado algunos scripts que se acercan un poco a esta tarea, pero todos usan los mismos datos preprocesados. ¿No es posible procesar estos datos yo mismo para encontrar el sentimiento en oraciones en lugar de utilizar las muestras de datos que figuran en el enlace?
¡Cualquier ayuda es muy apreciada y me ahorrará mucho pelo!
Saludos Ke datos opinión
sí, terminé en ese sitio después de un poco de búsqueda, pero creo que estoy un poco atascado en cómo obtener la estadística para cada revisión. ¿Cómo puedo usar nltk para darme una lista de los ID de revisión con un 1 o 0 para pos/neg? cheers ke –
Posiblemente útil para futuros lectores: el corpus de revisión de películas tiene categorías "pos" y "neg". Para obtener una lista de archivos en la categoría "neg", simplemente use 'movie_reviews.fileids (" neg ")'. También puede extraer directamente todo el texto en la categoría negativa diciendo, por ejemplo, 'movie_reviews.sents (categories = [" neg "])'. (Estos métodos funcionan con todos los corpus nltk categorizados. Para enumerar las categorías en un corpus, use 'corpus.categories()'.) – alexis