2010-07-22 11 views
5

Soy un desarrollador de PHP. Vamos a dejar eso fuera del camino ahora. Pero Hadoop - y Mahouten particular - han despertado mi interés. Estoy listo para hacer una inmersión en Java para usarlos.¿Cuánta Java necesita uno para usar Hadoop y Mahout de forma efectiva?

Por lo tanto, a partir de la experiencia de la gente lo suficiente como para saber, ¿cuánto necesito Java para poder utilizar estos eficazmente? Por lo que he visto, la programación de mapeadores/reductores no requiere demasiado. Pero con Mahout no estoy seguro de lo que estoy mirando cuando miro la documentación.

Además, ¿Cuán difícil será tomar datos de mi aplicación PHP para procesarlos en Java a través de Hadoop y Mahout? No me puedo imaginar que sea tan difícil, pero no tengo la experiencia suficiente para decirlo.

Respuesta

7

No debería ser tan difícil obtener datos de PHP a Java para el análisis utilizando Mahout y Hadoop.

Aún más fácil es procesar usando Mahout y Hadoop fuera de línea en modo batch y almacenar los productos de datos en un sistema de archivos o base de datos. PHP puede leer estos productos de datos tan fácilmente como caerse de un registro.

Para el uso en tiempo real, la parte de recomendaciones de Mahout admite una variedad de interfaces de servicios web que facilitan el acceso desde PHP. Golpear la parte de evaluación del modelo de Mahout requeriría un poco más de programación.

+0

Ted, ¿te importaría indicarme el punto en la documentación donde se mencionan estas interfaces de servicios web? No estoy seguro de haber encontrado esto hasta ahora. Mientras tanto, ¡gracias por tu respuesta! –

+0

No importa. Creo que lo encontré en la documentación de Taste. Sin embargo, para un novato como yo, ¿te importaría expandirte un poco sobre cómo PHP podría integrarse para trabajar con Mahout en una aplicación en tiempo real? Lo agradecería profundamente. –

+0

Lamentamos ser lentos para responder ... pero PHP es fácil de integrar a través de llamadas de servicios web desde PHP a los componentes de Mahout Taste. Otra alternativa sería usar Quercus para ejecutar PHP desde un entorno Java y llamar directamente a los componentes de Apache Mahout. –

1

Nivel principiante de Java es suficiente. Siempre puede cavar profundo en base adhoc.

1

Acabo de hacer lo mismo, y han pasado años haciendo todo lo relacionado con Java. Lo que hice fue lo siguiente:

  1. comenzó con ejemplos de streaming sencilla Hadoop
  2. intentar mi propio análisis con PHP streaming de
  3. comenzó a experimentar con cerdo
  4. empezar a experimentar con el uso de PHP de streaming dentro de cerdo

¡Todo sin Java!

0

Para obtener recomendaciones en tiempo real, también podría instanciar una instancia de mahout en una clase de servlet java, y luego servir exportar eso como una guerra para servir en un servidor tomcat.

Cuestiones relacionadas