2012-04-14 8 views
6

¿Hay algún proyecto que ayude a configurar un clúster de Hadoop en los escritorios de oficina cuando están inactivos?ejecutando el software de Hadoop en las computadoras de la oficina (cuando están inactivas)

Me gustaría experimentar con Hadoop/MR/hbase pero no tengo acceso a 5-10 computadoras. Las computadoras en el trabajo están inactivas después de horas y están conectadas entre sí a través de una conexión de muy alta velocidad. Además, los datos en estas computadoras permanecen dentro de nuestra red, por lo que no hay problemas de privacidad.

Para que esto funcione, necesito un monitor de peso ligero que funcione en cada máquina. Cuando la computadora ha estado inactiva durante X horas, se unirá al clúster. Si el usuario inicia sesión, debe abandonar el clúster y devolver toda la CPU/memoria.

¿Algo como esto existe?

+0

recomiendo altamente Amazon AWS/elástico Mapa reducido. Puede configurar clusters Hadoop bastante potentes rápidamente. – Suman

Respuesta

3

Puede usar el programador de tareas para detectar el estado inactivo y luego iniciar/detener un hadoop vm con el cuadro virtual o vmplayer. O puede escribir un script de PowerShell que empiece a detenerse en función del uso de recursos.

+0

¡Guau, no tenía idea de que el planificador de Windows pudiera programar con respecto al tiempo de inactividad! Otros encuentran esto útil: http://www.microsoft.com/resources/documentation/windows/xp/all/proddocs/en-us/agent_idle_time.mspx?mfr=true – Shahbaz

+0

¿Tenemos alguna referencia o enlace donde podamos establecer y usar cuadro virtual en cada uno de los escritorios que tienen 4 Gigs de RAM y configurar Hadoop Cluster. Sería un buen laboratorio experimental. ¿Algún pensamiento o idea? –

1

Hadoop no es una grilla de cálculo, es más una grilla de datos (ver diapositiva 9 en this presentation). El hecho es que con hadoop los datos se distribuyen en el clúster y, por lo tanto, los datos deben almacenarse en las computadoras. El tiempo que tomaría copiar los datos/eliminarlos cuando no estén inactivos probablemente no valdría la pena; será mejor que use hadoop en la nube (Amazon, Azure, etc.)

+0

No eliminaré datos. Apagar un nodo cuando la computadora está siendo utilizada por un humano solo significa que eliminaré temporalmente el nodo del clúster hadoop. Cuando la computadora esté disponible para hadoop, el nodo se iniciará y volverá a unirse al clúster. – Shahbaz

0

Mirar soluciones como NEREUS que es una buena solución MPC en Java

+0

Gracias Grooveek. Ya tengo una solución similar en mi universidad (greedy.epfl.ch). Lo que estoy buscando es una implementación de Hadoop. – Renaud

1

me gustaría utilizar algo así como Condor: http://research.cs.wisc.edu/condor/

+0

Gracias HaloWebMaster. Ya tengo una solución Condor en mi universidad (greedy.epfl.ch). Es genial, pero me gustaría usar algo como HDFS, entonces estoy buscando una implementación de Hadoop. – Renaud

+0

Quizás pueda usar el [Parrot virtual file system] (http://ccl.cse.nd.edu/software/parrot/) en los trabajos de Condor. – mhucka

1

es posible que desee echar un vistazo a Proyecto de Virginia Tech Luna http://www.wired.com/wiredenterprise/2012/05/project_moon/

+0

¿Su sistema está disponible fuera de Virginia Tech? No pude encontrar un enlace para descargarlo ... – Renaud

+0

Renaud, es posible que desee ponerse en contacto con el investigador principal del proyecto Moon Wu-Chun Feng http://people.cs.vt.edu/~feng/ para comprobar si está disponible. para descargar – fjxx

Cuestiones relacionadas