tengo un algoritmo que pasará por un gran conjunto de datos leerá algunos archivos de texto y buscará términos específicos en esas líneas. Lo tengo implementado en Java, pero no quise publicar el código para que no parezca que estoy buscando alguien que lo implemente, pero es cierto, realmente necesito mucha ayuda. Esto no fue planeado para mi proyecto, pero el conjunto de datos resultó ser enorme, así que la maestra me dijo que tenía que hacerlo así.Necesito ayuda para implementar este algoritmo con el mapa Hadoop MapReduce
EDITAR (no me aclaro i Previos versión) El conjunto de datos que tengo es en un clúster Hadoop, y yo debería hacer que su implementación MapReduce
que estaba leyendo acerca de MapReduce y thaught que primero haga el implementación estándar y luego será más o menos fácil hacerlo con mapreduce. Pero no sucedió, ya que el algoritmo es bastante estúpido y nada especial, y el mapa se reduce ... no puedo entenderlo.
Así que aquí es poco seudo código de mi algoritmo
LIST termList (there is method that creates this list from lucene index)
FOLDER topFolder
INPUT topFolder
IF it is folder and not empty
list files (there are 30 sub folders inside)
FOR EACH sub folder
GET file "CheckedFile.txt"
analyze(CheckedFile)
ENDFOR
END IF
Method ANALYZE(CheckedFile)
read CheckedFile
WHILE CheckedFile has next line
GET line
FOR(loops through termList)
GET third word from line
IF third word = term from list
append whole line to string buffer
ENDIF
ENDFOR
END WHILE
OUTPUT string buffer to file
Además, como se puede ver, cada vez que "analizar" se llama, nuevo archivo tiene que ser creado, entendí que MapReduce es difícil para escribir en muchas salidas ???
Entiendo mapreduce la intuición, y mi ejemplo parece perfectamente adecuado para mapreduce, pero cuando se trata de hacer esto, obviamente no sé lo suficiente y ¡estoy PEGADO!
Por favor ayuda.
¡Hola! Gracias por la respuesta! Pero no estoy seguro de entender:/¿Me puede dar más información? ¿Quizás tengas algunos ejemplos como ese? – Julia