Como @richiemorrisroe me encontré con este mal documentado Así es como consigo mi texto en el uso con el paquete tm y hacer que el término matriz documento:
library(tm) #load text mining library
setwd('F:/My Documents/My texts') #sets R's working directory to near where my files are
a <-Corpus(DirSource("/My Documents/My texts"), readerControl = list(language="lat")) #specifies the exact folder where my text file(s) is for analysis with tm.
summary(a) #check what went in
a <- tm_map(a, removeNumbers)
a <- tm_map(a, removePunctuation)
a <- tm_map(a , stripWhitespace)
a <- tm_map(a, tolower)
a <- tm_map(a, removeWords, stopwords("english")) # this stopword file is at C:\Users\[username]\Documents\R\win-library\2.13\tm\stopwords
a <- tm_map(a, stemDocument, language = "english")
adtm <-DocumentTermMatrix(a)
adtm <- removeSparseTerms(adtm, 0.75)
en este caso no es necesario especifique el nombre exacto del archivo. Siempre y cuando sea el único en t El directorio al que se hace referencia en la línea 3, será utilizado por las funciones tm. Lo hago de esta manera porque no he tenido éxito al especificar el nombre de archivo en la línea 3.
Si alguien puede sugerir cómo introducir texto en el paquete lda, le agradecería muchísimo. No he podido resolver eso en absoluto.
acabo de descubrir que no parece que la función stemDocument a trabajar en absoluto a menos que se especifique el idioma, por lo que he editado mi código anterior para incluir eso. – Ben