Hola a todos, acaba de empezar en hadoop y curiosidad por lo que la mejor manera en mapreduce sería para contar visitantes únicos si sus archivos de registro se veía así ...¿Cuál es la mejor manera de contar visitantes únicos con Hadoop?
DATE siteID action username
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview tom
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview bob
05-05-2010 siteA pageview mike
y para cada sitio que quería averiguar la visitantes únicos para cada sitio?
Estaba pensando que el asignador emitiría siteID \ t nombre de usuario y el reductor mantendría un conjunto() de los nombres de usuario únicos por clave y luego emitiría la longitud de ese conjunto. Sin embargo, eso potencialmente podría almacenar millones de nombres de usuario en la memoria que no parece correcto. Alguien tiene una mejor manera?
estoy usando streaming de pitón por cierto
gracias