¿Dónde puedo obtener un corpus de documentos que ya han sido clasificados como positivos/negativos para el sentimiento en el dominio corporativo? Quiero un gran corpus de documentos que proporcionen reseñas para las empresas, como reseñas de compañías proporcionadas por analistas y medios de comunicación.Datos de entrenamiento para el análisis de sentimientos

Encontré corpus que tienen reseñas de productos y películas. ¿Existe un corpus para el dominio comercial que incluya reseñas de empresas que coincidan con el idioma de los negocios?

2011-09-26 London guy

Véase también esta pregunta relacionada: 0 http://stackoverflow.com/questions/5570681/what-training-data-sources-could-be-used-for-sentiment-classification-models –

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

Puede usar Twitter, con sus emoticonos, así: http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf

la esperanza de que podrá iniciar. Hay más en la literatura, si le interesan subtareas específicas como negación, ámbito de opinión, etc.

Para centrarse en las empresas, puede emparejar un método con la detección de temas, o simplemente una gran cantidad de menciones de una compañía dada. O puede obtener sus datos anotados por Mechanical Turkers.

Fuente

2011-09-26 12:20:47

FYI pitt se mudó aquí http: //mpqa.cs.pitt .edu/corpora/mpqa_corpus/ –

No conozco ningún corpus de este tipo que esté disponible gratuitamente, pero podría probar unsupervised method en un conjunto de datos sin etiqueta.

Fuente

2011-09-26 08:40:00

Aquí hay algunos más;

http://inclass.kaggle.com/c/si650winter11

http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html

Fuente

2011-09-26 16:53:40 y2p

Necesitamos ingresar un correo electrónico y una contraseña de la universidad para el enlace kaggle. – user3798602

Si usted tiene algunos recursos (canales de medios de comunicación, blogs, etc) sobre el dominio que desea explorar, puede crear su propio corpus. hago esto en Python:

usando Hermosa sopa http://www.crummy.com/software/BeautifulSoup/ para analizar el contenido que quiero clasificar.
separa las oraciones que significan opiniones positivas/negativas sobre las empresas.
Uso NLTK para procesar esta frases, palabras, no simbólica etiquetado POS, etc.
Uso NLTK PMI para calcular bigramas o trigramas mos frecuentes en una sola clase

Creación de corpus es un duro trabajo de pre procesamiento, comprobación, etiquetado, etc., pero tiene los beneficios de preparar un modelo para un dominio específico muchas veces aumentando la precisión. Si puede obtener un corpus ya preparado, simplemente continúe con el análisis de opinión;)

Fuente

2012-03-07 15:45:12 Luchux

Puede obtener una amplia selección de revisiones en línea de Datafiniti. La mayoría de las revisiones vienen con datos de calificación, lo que proporcionaría más granularidad en el sentimiento que en positivo/negativo. Aquí hay un list of businesses with reviews, y aquí hay un list of products with reviews.

Fuente

2013-06-20 19:46:40 shiondev

Esta es una lista que escribí hace unas semanas, desde my blog. Algunos de estos conjuntos de datos se han incluido recientemente en la plataforma NLTK Python.

léxicos

Opinión Léxico por Bing Liu
- URL: http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#lexicon
- PAPELES: Mining and summarizing customer reviews
- NOTAS: Incluido en la plataforma NLTK Python
MPQA subjetividad Lexicon
- URL: http://mpqa.cs.pitt.edu/#subj_lexicon
- DOCUMENTOS: Recognizing Contextual Polarity in Phrase-Level Sentiment Analysis (Theresa Wilson, Janyce Wiebe, and Paul Hoffmann, 2005).
SentiWordNet
- URL: http://sentiwordnet.isti.cnr.it
- NOTAS: Incluido en la plataforma NLTK Python
Harvard general Inquirer
- URL: http://www.wjh.harvard.edu/~inquirer
- DOCUMENTOS: The General Inquirer: A Computer Approach to Content Analysis (Stone, Philip J; Dexter C. Dunphry; Marshall S. Smith; and Daniel M. Ogilvie. 1966)
lingüística mensaje y el número de palabras (LIWC)
- URL: http://www.liwc.net
Vader Léxico
- URL: https://github.com/cjhutto/vaderSentiment, http://comp.social.gatech.edu/papers
- DOCUMENTOS: Vader: A parsimonious rule-based model for sentiment analysis of social media text (Hutto, Gilbert. 2014)

Conjuntos de datos

MPQA Conjuntos de datos
- URL: http://mpqa.cs.pitt.edu
- NOTAS: Licencia pública GNU.
  - datos políticos
  - datos Debate Producto
  - subjetividad Sense Anotaciones
Sentiment140 (Tweets)
- URL: http://help.sentiment140.com/for-students
- DOCUMENTOS: Twitter Sent classification using Distant Supervision (Go, Alec, Richa Bhayani, and Lei Huang)
- URL: http://help.sentiment140.com, https://groups.google.com/forum/#!forum/sentiment140
STS-Oro (Tweets)
- URL: http://www.tweenator.com/index.php?page_id=13
- DOCUMENTOS: Evaluation datasets for twitter sentiment analysis (Saif, Fernandez, He, Alani)
- NOTAS: Como Sentiment140, pero el conjunto de datos es más pequeño y con anotadores humanos. Viene con 3 archivos: tweets, entidades (con su opinión) y un conjunto agregado.
Cliente revisión del conjunto de datos (revisiones de productos)
- URL: http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets
- DOCUMENTOS: Mining and summarizing customer reviews
- NOTAS: Título de la opinión, FEA producto etiqueta positiva/negativa con fortaleza de opinión, otra información (comparaciones, resolución de pronombres, etc.)
incluido en la plataforma NLTK Python
pros y los contras de conjunto de datos (pros y contras oraciones)
- URL: http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets
- DOCUMENTOS: Mining Opinions in Comparative Sentences (Ganapathibhotla, Liu 2008)
- NOTAS: Una lista de frases etiquetados <pros> o <cons>
incluido en la plataforma NLTK Python
Sentencias comparativos (Comentarios)
- URL : http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets
- PAPERS: Identifying Comparative Sentences in Text Documents (Nitin Jindal and Bing Liu), Mining Opinion Features in Customer Reviews (Minqing Hu and Bing Liu)
- NOTAS: Oración, oración POS-tagged, entidades, Tipo de comparación (no iguales, ecuativa, superlativa, no gradable)
Incluido en la plataforma NLTK Python
Sanders Analytics Twitter sentimiento Corpus (TWE ets)
- URL: los tweets http://www.sananalytics.com/lab/twitter-sentiment
5513 a mano de anuncios WRT 4 temas diferentes. Debido a los ToS de Twitter, se incluye un pequeño script de Python para descargar todos los tweets. Las clasificaciones de sentimientos en sí mismas se proporcionan de forma gratuita y sin restricciones. Se pueden usar para productos comerciales. Ellos pueden ser redistribuidos. Pueden ser modificados.
tuits españolas (Tweets)
- URL: http://www.daedalus.es/TASS2013/corpus.php
SemEval 2014 (Tweets)
- URL: http://alt.qcri.org/semeval2014/task9
NO DEBE volver a distribuir los tweets, las anotaciones o el corpus obtenido (del archivo léame)
Varios conjuntos de datos (Reseñas)
- URL: https://personalwebs.coloradocollege.edu/~mwhitehead/html/opinion_mining.html
- DOCUMENTOS: Building a General Purpose Cross-Domain Sentiment Mining Model (Whitehead and Yaeger), Sentiment Mining Using Ensemble Classification Models (Whitehead and Yaeger)
Varios conjuntos de datos # 2 (Comentarios)
- URL: http://www.text-analytics101.com/2011/07/user-review-datasets_20.html

Referencias:

Keenformatics - Sentiment Analysis lexicons and datasets (mi blog)
La experiencia personal

Fuente

2015-10-19 13:30:28

Buena respuesta. Muchas gracias Kurt. – ylnor

Datos de entrenamiento para el análisis de sentimientos

Respuesta

léxicos

Conjuntos de datos

Cuestiones relacionadas