que tiene un gran conjunto de datos en R (1M + 6 filas por columnas) que desea utilizar para entrenar a un bosque aleatorio (usando el paquete randomForest
) para fines de regresión. Por desgracia, me sale un error Error in matrix(0, n, n) : too many elements specified
cuando se trata de hacerlo todo a la vez y no puede asignar suficiente memoria tipo de errores cuando se ejecuta en un subconjunto de los datos - hasta 10.000 o más observaciones.bosque aleatorio en un gran conjunto de datos
Al ver que no hay posibilidad de que pueda agregar más RAM en mi máquina y los bosques aleatorios son muy adecuados para el tipo de proceso que estoy tratando de modelar, realmente me gustaría hacer que esto funcione.
alguna sugerencia o idea de solución son muy apreciados.
Ejecutar con 'proximidad = FALSE como [Joran] (http://stackoverflow.com/users/324364/joran) sugirió y nos dirá si funciona. – smci
Una manera relativamente simple de resolver su problema sería subconjunto de su matriz de entrada. Toda esa información probablemente no le dará un modelo mejor que uno con un subconjunto de tamaño 10K x 10K. –
¿Echó un vistazo a la biblioteca (h2o)? Eso funciona bien para problemas muy grandes, ver http://www.r-bloggers.com/benchmarking-random-forest-implementations/ –