2011-09-02 4 views
9

He estado siguiendo the awesome Yahoo! Hadoop tutorial, que funcionó muy bien para configurar un entorno de máquina virtual (Módulo 3 del tutorial). Pero ahora estoy siendo sorprendido por la sección HDFS (Módulo 2) y creo que podría ser más fácil si tuviera un tutorial específico de Windows. Intenté seguir this one, pero algunos de los pasos no fueron del todo correctos. He estado tratando de encontrar un buen tutorial que funcione para mí en mi máquina con Windows 7, pero estoy un poco atascado. ¿Hay un buen lugar para esto? Hadoop parece estar muy orientado hacia los usuarios de Linux, y desafortunadamente tengo que usar mi computadora portátil de trabajo, que es Windows 7. ¿Puedo hacer que esto funcione o realmente solo funciona para los usuarios de Linux?¿Existe un buen tutorial en línea para el desarrollo de Hadoop en una máquina con Windows 7?

Respuesta

7

El tutorial Hadoop en la red de desarrolladores de Yahoo es obsoleta y problemática. La mitad de los pasos no me funcionaron en absoluto (estaba ejecutando su imagen en VMware Player en Windows 7), y la otra mitad era vaga. Los ejemplos del código de Java estaban mal escritos y no compilarían. En cualquier caso, están escritos para la antigua API de Hadoop.

Renuncié a ese tutorial y en su lugar utilicé la imagen VM VM de Cloudera. Esto viene preconfigurado con Hadoop, Pig, Hive, HBase, etc. Estaba en el negocio a la vez y no tuve problemas para compilar y ejecutar trabajos de Hadoop y scripts de Pig.

Las descargas de Cloudera Demo VM en su página principal de soporte (https://ccp.cloudera.com/display/SUPPORT/Cloudera + Hadoop + Demo + VM) son todas de 64 bits. Si está buscando una versión de 32 bits como yo, puede obtener una aquí: https://downloads.cloudera.com/cloudera-demo-0.3.7.vmwarevm.tar.bz2

Ésta tiene una versión ligeramente anterior de la distribución Cloudera (CDH3u0) que se ejecuta en Ubuntu 10.10 con el escritorio Gnome. Instalé Eclipse para compilar mis trabajos de Hadoop, pero no me molesté en intentar instalar el complemento de Hadoop, que he oído es problemático. La primera vez, cometí el error de actualizar accidentalmente la distribución de Cloudera a CDH3u3 a través del Administrador de actualizaciones del sistema y esto estropeó mi configuración de Hadoop. No sabía cómo reconfigurarlo correctamente, así que empecé de nuevo desde la imagen original.

Para obtener cerdo funcionamiento, es necesario configurar primero la variable JAVA_HOME: export JAVA_HOME=/usr/lib/jvm/java-6-sun

Desafortunadamente, perdí un montón de tiempo con ese viejo tutorial YDN antes de un amigo desarrollador de Java familiarizados con Hadoop señaló conmigo a la distribución de Cloudera .

1

Estoy tratando de aprender Hadoop en este momento también y lo que hice fue descargar la caja virtual (http://www.virtualbox.org/) y cargar algunas imágenes de Linux y comencé a seguir los tutoriales.

Incluso puede obtener una imagen de configuración de hadoop prefabricada de cloudera. Creo que este enfoque es mucho mejor que instalar y configurar tu máquina principal porque, en caso de que haya un problema, tu máquina principal no se verá afectada (simplemente puedes volver a una copia anterior de tu imagen virtual de Linux o rasparla). y comenzar de nuevo sin ningún impacto).

Buena suerte!

+0

Gracias por su consejo. Trataré de hacerlo a través de VirtualBox. – Steph

1

Desarrollar Hadoop en Windows es factible pero difícil de conseguir. Requiere instalar Cygwin y obtener todas las variables de entorno correctas puede ser complicado. Para comenzar a desarrollar en Windows, recomiendo instalar vmware player y ejecutar la máquina virtual preconfigurada por Cloudera. Esto simplemente significa que realizará el desarrollo de Hadoop en Linux sin reiniciar ni reinstalar su sistema de Windows y sin los problemas de instalación asociados con cygwin.

https://ccp.cloudera.com/display/SUPPORT/Cloudera%27s+Hadoop+Demo+VM

+0

el enlace está desactualizado y da un error 404. – Simulant

1

He estado golpeando mi cabeza contra el tutorial de yahoo durante mucho tiempo también. El complemento Eclipse ya no se mantiene y es bastante poco confiable. Esperemos que la imagen de cloudera haga el truco.

2

Era completamente nuevo en hadoop y, sinceramente, encontré los tutoriales e información de cloudera completamente inútiles. Dale una oportunidad a los IBM, son súper útiles y son muy amigables para los principiantes. Instrucciones paso a paso para prácticamente todas las aplicaciones básicas de hadoop y algunas específicas para la distribución de IBM.

Aquí está el enlace de descarga. -

https://www14.software.ibm.com/webapp/iwm/web/preLogin.do?source=swg-ibmibqsevmw&S_TACT=109HF38W&S_CMP=109HF

Hay que hacer una cuenta pero es gratis y no toma mucho tiempo.

No puedo publicar más de un enlace en este momento, pero es bastante fácil encontrar los tutoriales en línea y también existen dentro de la máquina virtual.

También hay un foro en el que he publicado mis preguntas cuando me quedo atascado y alguien de IBM siempre me ha ayudado en una hora o un día. No se puede publicar el enlace, pero si googleas "IBM InfoSphere BigInsights Forum", es el primer éxito.

¡Buena suerte!

0

Acabo de terminar el "Hadoop Fundamentals I - Version 2" en http://bigdatauniversity.com. Viene con imágenes IBM BigBisunessInsight VMWare y funciona muy bien.

Las imágenes incluyen un modo local uno y un modo de grupo uno. Es capaz de simular un clúster de nodos múltiples en mi estación de trabajo Windows 8 con 8 GB de RAM.

Espero que esta información sea útil :-)

Cuestiones relacionadas