46

¿Dónde puedo obtener un corpus de documentos que ya han sido clasificados como positivos/negativos para el sentimiento en el dominio corporativo? Quiero un gran corpus de documentos que proporcionen reseñas para las empresas, como reseñas de compañías proporcionadas por analistas y medios de comunicación.Datos de entrenamiento para el análisis de sentimientos

Encontré corpus que tienen reseñas de productos y películas. ¿Existe un corpus para el dominio comercial que incluya reseñas de empresas que coincidan con el idioma de los negocios?

+0

Véase también esta pregunta relacionada: 0 http://stackoverflow.com/questions/5570681/what-training-data-sources-could-be-used-for-sentiment-classification-models –

Respuesta

32

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

Puede usar Twitter, con sus emoticonos, así: http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf

la esperanza de que podrá iniciar. Hay más en la literatura, si le interesan subtareas específicas como negación, ámbito de opinión, etc.

Para centrarse en las empresas, puede emparejar un método con la detección de temas, o simplemente una gran cantidad de menciones de una compañía dada. O puede obtener sus datos anotados por Mechanical Turkers.

+1

FYI pitt se mudó aquí http: //mpqa.cs.pitt .edu/corpora/mpqa_corpus/ –

1

No conozco ningún corpus de este tipo que esté disponible gratuitamente, pero podría probar unsupervised method en un conjunto de datos sin etiqueta.

4

Si usted tiene algunos recursos (canales de medios de comunicación, blogs, etc) sobre el dominio que desea explorar, puede crear su propio corpus. hago esto en Python:

  • usando Hermosa sopa http://www.crummy.com/software/BeautifulSoup/ para analizar el contenido que quiero clasificar.
  • separa las oraciones que significan opiniones positivas/negativas sobre las empresas.
  • Uso NLTK para procesar esta frases, palabras, no simbólica etiquetado POS, etc.
  • Uso NLTK PMI para calcular bigramas o trigramas mos frecuentes en una sola clase

Creación de corpus es un duro trabajo de pre procesamiento, comprobación, etiquetado, etc., pero tiene los beneficios de preparar un modelo para un dominio específico muchas veces aumentando la precisión. Si puede obtener un corpus ya preparado, simplemente continúe con el análisis de opinión;)

13

Esta es una lista que escribí hace unas semanas, desde my blog. Algunos de estos conjuntos de datos se han incluido recientemente en la plataforma NLTK Python.

léxicos


Conjuntos de datos


Referencias:

+1

Buena respuesta. Muchas gracias Kurt. – ylnor

Cuestiones relacionadas