Al usar fórmulas que tienen factores, los modelos ajustados nombran los coeficientes XY, donde X es el nombre del factor e Y es un nivel particular de él. Quiero ser capaz de crear una fórmula a partir de los nombres de estos coeficientes.Conversión de nombres de coeficientes a una fórmula en R
El motivo: si ajusto un lazo a una matriz de diseño dispersa (como lo hago a continuación) me gustaría crear un nuevo objeto de fórmula que solo contenga términos para los coeficientes distintos de cero.
require("MatrixModels")
require("glmnet")
set.seed(1)
n <- 200
Z <- data.frame(letter=factor(sample(letters,n,replace=T),letters),
x=sample(1:20,200,replace=T))
f <- ~ letter + x:letter + I(x>5):letter
X <- sparse.model.matrix(f, Z)
beta <- matrix(rnorm(dim(X)[2],0,5),dim(X)[2],1)
y <- X %*% beta + rnorm(n)
myfit <- glmnet(X,as.vector(y),lambda=.05)
fnew <- rownames(myfit$beta)[which(myfit$beta != 0)]
[1] "letterb" "letterc" "lettere"
[4] "letterf" "letterg" "letterh"
[7] "letterj" "letterm" "lettern"
[10] "lettero" "letterp" "letterr"
[13] "letters" "lettert" "letteru"
[16] "letterw" "lettery" "letterz"
[19] "lettera:x" "letterb:x" "letterc:x"
[22] "letterd:x" "lettere:x" "letterf:x"
[25] "letterg:x" "letterh:x" "letteri:x"
[28] "letterj:x" "letterk:x" "letterl:x"
[31] "letterm:x" "lettern:x" "lettero:x"
[34] "letterp:x" "letterq:x" "letterr:x"
[37] "letters:x" "lettert:x" "letteru:x"
[40] "letterv:x" "letterw:x" "letterx:x"
[43] "lettery:x" "letterz:x" "letterb:I(x > 5)TRUE"
[46] "letterc:I(x > 5)TRUE" "letterd:I(x > 5)TRUE" "lettere:I(x > 5)TRUE"
[49] "letteri:I(x > 5)TRUE" "letterj:I(x > 5)TRUE" "letterl:I(x > 5)TRUE"
[52] "letterm:I(x > 5)TRUE" "letterp:I(x > 5)TRUE" "letterq:I(x > 5)TRUE"
[55] "letterr:I(x > 5)TRUE" "letteru:I(x > 5)TRUE" "letterv:I(x > 5)TRUE"
[58] "letterx:I(x > 5)TRUE" "lettery:I(x > 5)TRUE" "letterz:I(x > 5)TRUE"
De esto me gustaría tener una fórmula
~ I(letter=="d") + I(letter=="e") + ...(etc)
Revisé fórmula() y all.vars() sin ningún resultado. Además, escribir una función para analizar esto es un poco molesto debido a los diferentes tipos de términos que pueden surgir. Por ejemplo, para x: letra cuando x es un valor numérico y la letra es un factor, o I (x> 5): letra como otro caso molesto.
Entonces, ¿no conozco alguna función para convertir entre fórmula y su representación de caracteres y viceversa?
Esa no es una fórmula que reconozco en R –
Quizás no entiendo bien, pero parece que no grep completamente las fórmulas del modelo de R. No incluye en la fórmula los bits XY, incluye la X y 'model.matrix()' y 'model.frame()' hacen lo suyo para expandir los niveles de la X a las columnas de matrices modelo correspondientes, la XY. –
¿Podría explicar por qué quiere la fórmula? ¿Cuál es el uso final? –