¿Hay alguna forma de ejecutar bosque aleatorio en archivos xdf grandes (aproximadamente 10 gb) xdf (revolución R)? Obviamente puedo probar rxReadXdf y encubrirlo en un marco de datos ... pero mi máquina solo tiene 8 GB de RAM y puedo estar lidiando con conjuntos de datos aún mayores en el futuro. Por ejemplo, usando el bucle foreach, me gusta correr 1000 árboles en mi máquina de cuatro núcleos:Random Forest en archivos xdf grandes sin leer en un marco de datos
#'train.xdf" is a 10gb training data set
rf<- foreach(ntree=rep(250, 4), .combine=combine,
.packages='randomForest') %do%
randomForest(amount2~.,data="train", ntree=ntree, importance=TRUE,
na.action=na.omit, replace=FALSE)
Pero randomForest no puede tomar en "tren" (un xdf) archivo. ¿Hay alguna forma de ejecutar bosque aleatorio directamente en xdf sin leer en un marco de datos?
Saludos, agsub
No creo que eso sea posible, pero nunca he trabajado con archivos xdf. En cambio, trataría de dividir los datos en trozos más pequeños, formar bosques aleatorios sobre ellos y construir un modelo final sobre las mejores características de todos los trozos combinados. Aunque es bastante engorroso. – Backlin
Ya esa es probablemente la forma en que iré ahora – thiakx
Lo bueno es que si el análisis de datos fuera fácil no tendría trabajo :) – Backlin