principiante en R y minería de texto. Usando el paquete tm actualmente.Extracción de texto R - Combinación de párrafos uno después de otro sin oraciones que mezclan
Estoy tratando de agregar los textos de dos documentos diferentes en un corpus juntos. cuando uso una declaración como
c(corpus.doc[[1]],corpus.doc[[2]])
o la declaración de pasta
paste(corpus.doc[[1]],corpus.doc[[2]])
obtengo un resultado de los textos combinados para cada línea.
Por ejemplo: si
> corpus.doc[[1]]
He visits very often
and
sometimes more
> corpus.doc[[2]])
She also
stays
Lo que obtengo con estas declaraciones es algo así como
He visits very often She also
and stays
sometimes more
¿Cómo puedo evitar eso y lugar, o descarga
He visits very often
and
sometimes more
She also
stays
O hay una manera fácil de combinar documentos en el paquete R tm? ¡Gracias de antemano!
Otros detalles
Cuando uso
un < - c (corpus.doc [[1]], corpus.doc [[2]], recursive = TRUE)
Me sale que a se convierte en un corpus con dos documentos, por lo que los textos de cada uno de estos documentos aún no están combinados. Me gustaría que esa
a[[1]]
me da el texto combinado de corpus.doc [[1]] y corpus.doc [[2]].
str(corpus.doc)
que ver algo así
List of 4270
$ CREC-2011-01-05-pt1-PgE1-2.htm :Classes 'PlainTextDocument', 'TextDocument',
'character' atomic [1:74] html head titlecongression record volume issue
head ...
.. ..- attr(*, "Author")= chr(0)
.. ..- attr(*, "DateTimeStamp")= POSIXlt[1:1], format: "2009-01-17 15:45:25"
.. ..- attr(*, "Description")= chr(0)
. . ..- attr(, "Heading")= chr(0) .. ..- attr(, "ID")= chr "CREC-2011-01-05-pt1-PgE1- 2.htm"
Y sigue pasando ...
¿Por qué no utilizar un editor de texto para copiar y pegar el texto de un documento en el otro? Si su ejemplo, los dos documentos son "PlainTextDocument" y "TextDocument", por lo que no debería ser un problema editarlos en un editor de texto. Luego use ese nuevo documento como la entrada para el paquete tm. No es una solución R pura, pero es rápida si solo tiene una pequeña cantidad de documentos. – Ben
Sí ... lo sé :) Es solo que hay más de 7000 de estos archivos (son archivos de voz), y quiero combinar los textos en función de si son del mismo hablante. – appletree