Supongamos que tengo un archivo delimitado por tabuladores que contiene los datos de actividad del usuario formateados como esto:Hadoop - compuesto clave
timestamp user_id page_id action_id
Quiero escribir un trabajo Hadoop para contar las acciones del usuario en cada página, por lo que el archivo de salida debería ser como este:
user_id page_id number_of_actions
Necesito algo así como la clave compuesta aquí - contendría user_id y page_id. ¿Hay alguna manera genérica de hacer esto con hadoop? No pude encontrar nada útil. Hasta ahora estoy emisores clave como este en mapeador:
context.write(new Text(user_id + "\t" + page_id), one);
Funciona, pero siento que no es la mejor solución.
ComparisonChain realmente hace que sea fácil para este caso de uso. Gracias –