Tengo algunos datos de tipo mixto que me gustaría almacenar en una estructura de datos R de algún tipo. Cada punto de datos tiene un conjunto de atributos fijos que pueden ser 1-d numéricos, factores o caracteres, y también un conjunto de datos de longitud variable. Por ejemplo:¿La mejor manera de almacenar datos de longitud variable en un R data.frame?
id phrase num_tokens token_lengths
1 "hello world" 2 5 5
2 "greetings" 1 9
3 "take me to your leader" 4 4 2 2 4 6
Los valores reales no son todos computables entre sí, pero ese es el sabor de los datos. Las operaciones que voy a querer hacer incluyen subdividir los datos basados en funciones booleanas (por ejemplo, algo como nchar(data$phrase) > 10
o lapply(data$token_lengths, length) > 2)
. También me gustaría indexar y promediar valores en la porción de longitud variable por índice. Esto no funciona, pero algo como: mean(data$token_lengths[1], na.rm=TRUE))
que he encontrado que puedo calzador "token_lengths" en un hoja.de.datos por lo que es una matriz:?
d <- data.frame(id=c(1,2,3), ..., token_lengths=as.array(list(c(5,5), 9, c(4,2,2,4,6)))
pero es ésta la mejor manera
En promedio Tal vez usted quiere 'lapply ($ token_lengths datos, significan, na.rm = VERDADERO)'? Pero no entiendo completamente lo que quieres. – Marek