Tengo un archivo de texto enorme de la formahallazgo significa el uso de cerdo o hadoop
datos se guardan en los datos del directorio/data1.txt, data2.txt y así sucesivamente
merchant_id, user_id, amount
1234, 9123, 299.2
1233, 9199, 203.2
1234, 0124, 230
and so on..
Lo que yo quiero hacer es para cada comerciante, encuentre la cantidad promedio ..
así que, básicamente, al final quiero guardar la salida en el archivo. algo así como
merchant_id, average_amount
1234, avg_amt_1234 a
and so on.
¿Cómo se calcula la desviación estándar, así?
Lo siento por hacer una pregunta tan básica. :( Cualquier ayuda sería apreciada :)
Una buena respuesta a esta pregunta debería cubrir los conceptos básicos de hadoop, así como los algoritmos necesarios para calcular las diversas métricas.Me gustaría volver a editar esta pregunta, o tal vez preguntar a otro y decir por adelantado lo que sabes sobre cómo resolver esto con hadoop o cerdo y ser más específico sobre la única cosa que te está reteniendo. –