He creado una DocumentTermMatrix que contiene 1859 documentos (filas) y 25722 (columnas). Para realizar más cálculos en esta matriz, necesito convertirla a una matriz regular. Quiero usar el comando as.matrix()
. Sin embargo, devuelve el siguiente error: no se puede asignar un vector de tamaño 364.8 MB.tm error de paquete "No se puede convertir DocumentTermMatrix en una matriz normal ya que el vector es demasiado grande"
> corp
A corpus with 1859 text documents
> mat<-DocumentTermMatrix(corp)
> dim(mat)
[1] 1859 25722
> is(mat)
[1] "DocumentTermMatrix"
> mat2<-as.matrix(mat)
Fehler: kann Vektor der Größe 364.8 MB nicht allozieren # cannot allocate vector of size 364.8 MB
> object.size(mat)
5502000 bytes
Por alguna razón, el tamaño del objeto parece aumentar drásticamente cada vez que se transforma en una matriz normal. ¿Cómo puedo evitar esto?
¿O existe una forma alternativa de realizar operaciones de matriz regulares en una DocumentTermMatrix?
Gracias por la respuesta rápida. Desafortunadamente, SparseM no parece ser útil, ya que necesito calcular la similitud de Jaccard entre cada par de líneas. Lo hago usando la función vegdist() del paquete vegan. Esto no funciona en una matriz dispersa. – Christian