Necesito ejecutar varias técnicas de aprendizaje automático en un gran conjunto de datos (10-100 mil millones de registros) Los problemas son principalmente en minería de texto/extracción de información e incluyen varias técnicas de kernel pero no están restringidas a ellos (use algunos métodos bayesianos, bootstrapping, boosting de gradiente, árboles de regresión, muchos problemas diferentes y formas de resolverlos)Aprendizaje a gran escala
¿Cuál sería la mejor implementación? Tengo experiencia en ML pero no tengo mucha experiencia en cómo hacerlo para grandes conjuntos de datos ¿Hay alguna biblioteca Machine Learning extensible y personalizable que utilice la infraestructura de MapReduce Fuerte preferencia por C++, pero Java y python están bien Amazon Azure o centro de datos propio (podemos pagarlo)?
Uso solo un sistema realmente no cuenta como gran escala, y tampoco es lo que el OP solicitó. – Staffan