2008-12-01 13 views
13

Estoy buscando información general sobre cómo otras personas están usando Hadoop u otras tecnologías similares a MapReduce. En general, tengo curiosidad por saber si está escribiendo aplicaciones MR para procesar conjuntos de datos existentes (como archivos de registro del servidor web), o ¿está escribiendo aplicaciones que generan y procesan nuevos conjuntos de datos?¿Cómo se usa MapReduce/Hadoop?

Editar: preguntas de seguimiento

(1) ¿Alguna vez se ejecuta un programa de MR con los datos generados por otros programas de RM?

(2) ¿Alguna vez necesita modificar los conjuntos de datos existentes utilizando MR?

(3) ¿Alguna vez ha compartido sus conjuntos de datos con otros desarrolladores?

+0

Esta es una publicación anterior. Ya publiqué mi trabajo de investigación sobre MapReduce. Puede encontrar más información (y nuestro código fuente de referencia) aquí: [http://database.cs.brown.edu/projects/mapreduce-vs-dbms/](http://database.cs.brown. edu/projects/mapreduce-vs-dbms /) – apavlo

Respuesta

2

Estoy analizando conjuntos de datos existentes, en mi caso rastros de actividad del programador.

8

Consulte la wiki de PowerdBy Hadoop para ver ejemplos de todo, desde Facebook hasta FOX News y cómo lo están usando.

1

he utilizado hadoop como parte de nutch, y para la construcción/análisis web gráficos y texto

(1) Muchas de las tareas no se pueden hacer de una sola vez, por lo que la necesidad de ejecutar MR en los datos generados por RM es esencial.

(2) Al rastrear con nutch, hay situaciones en las que necesita filtrar o normalizar el crawldb u otros datos. (Por lo tanto, sí)

(3) Hasta ahora, principalmente como volcados o resultados de algún tipo. No como datos de MR "nativos" hasta ahora.

0

Mis dos usos hasta ahora han sido analizar grandes conjuntos de datos de comportamiento (recopilados de la web, teléfonos móviles, & c) y paralelizar enfoques a grandes problemas (por ejemplo, usar algoritmos genéticos para encontrar óptimos locales en un NP-completo espacio problemático).

En el caso general, los flujos de MR son de varias etapas, por lo que con frecuencia me desempeño contra los datos generados por una etapa anterior de MR.

1

En general, tengo curiosidad acerca de si usted está escribiendo aplicaciones de RM a tratar series de datos existentes (como los archivos de registro del servidor web), o estás escribir aplicaciones que generan y procesan nuevos conjuntos de datos?

El trabajo que estoy haciendo con las aplicaciones de RM implica el procesamiento de los conjuntos de datos existentes que se pueden utilizar para generar nuevos conjuntos de datos, que ...

(1) ¿Alguna vez se ejecute un programa MR contra los datos generados por otros programas de MR?

... sí, yo hago. Esto se conoce como encadenamiento de operaciones de mapa/reducción, donde se vinculan múltiples mapas y se reducen los trabajos en secuencia.

(2) ¿Alguna vez necesita modificar los conjuntos de datos existentes utilizando MR?

La idea de MR es introducir su conjunto de datos existente y no tener que modificarlo para procesar y analizar información. El único caso en el que tuve que hacer eso fue dividiendo un conjunto de datos en parcelas.

(3) ¿Alguna vez ha compartido sus conjuntos de datos con otros desarrolladores?

Gran parte del código que está involucrado en las aplicaciones activas de MR se considera propietario como el mío, por lo que compartirlo con otros desarrolladores es un problema; si desea que los conjuntos de datos de muestra funcionen con los libros que recomiendo son Pro Hadoop (Venner), Hadoop en acción (Lam) y Hadoop, la Guía definitiva (Blanco).