2011-05-28 14 views
9

Estoy tratando de tomar un conjunto de revisiones y convertirlas al formato ARFF para usar con WEKA. Lamentablemente, no entiendo completamente cómo funciona el formato, o tendré que tener un atributo para TODAS las palabras posibles, luego un indicador de presencia. ¿Alguien conoce una mejor manera, o idealmente tiene un archivo ARFF de muestra?ARFF para el procesamiento del lenguaje natural

Respuesta

3

tomó un tiempo para hacer ejercicio, pero con este input.arff:

@relation text_files 

@attribute review string 
@attribute sentiment {0, 1} 

@data 
"this is some text", 1 
"this is some more text", 1 
"different stuff", 0 

Y este comando:

java -classpath "C:\\Program Files\\Weka-3-6\\weka.jar" weka.filters.unsupervised.attribute.StringToWordVector -i input.arff -o output.arff 

La siguiente se produce:

@relation 'text_files-weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullStemmer-M1-tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"' 

@attribute sentiment {0,1} 
@attribute different numeric 
@attribute is numeric 
@attribute more numeric 
@attribute some numeric 
@attribute stuff numeric 
@attribute text numeric 
@attribute this numeric 

@data 

{0 1,2 1,4 1,6 1,7 1} 
{0 1,2 1,3 1,4 1,6 1,7 1} 
{1 1,5 1} 
+0

¿Sabes lo que las tuplas como '0 1', separadas por comas en' {0 1,2 1,4 1,6 1,7 1} 'representan? Creo que esto es diferente del formato convencional .arff. ¿Has tenido suerte al obtener resultados significativos con WEKA? – Rhubarb

+2

Esta es una publicación bastante antigua, pero por lo que recuerdo, el primer dígito en la tupla es el número @attribute, y el segundo número es el recuento de ocurrencias en la cadena. Creo que, hasta cierto punto, puede significar lo que quieras, siempre que entiendas lo que significan los resultados. –

4

Si almacene las revisiones en archivos de texto plano y diferentes carpetas (positivas y negativas en su caso) puede usar TextDirectoryLoader.

Lo encuentra en la aplicación KnowledgeFlow en Weka o desde la línea de comandos. Más información aquí: http://weka.wikispaces.com/ARFF+files+from+Text+Collections

+0

¿El formato de los archivos es una instancia, por ejemplo una revisión, por línea en los archivos txt? –

+0

no, puede tener varias líneas por txt – zdepablo

Cuestiones relacionadas