Permítanme comenzar diciendo que no tengo experiencia con R, KNN o ciencia de datos en general. Recientemente encontré Kaggle y he estado jugando con la competencia/tutorial Digit Recognition. En este
Me agarraron el conjunto de datos pista1 KDD de Kaggle y decidieron cargar un archivo CSV de 3 columnas ~ 2,5 GB en la memoria, en mi 16GB instancia EC2 de alta memoria: data = np.loadtxt('rec_log_tra