He estado tratando de usar Hadoop para enviar N cantidad de líneas a una sola asignación. No necesito que las líneas se dividan ya.Varias líneas de texto en un solo mapa
He intentado utilizar NLineInputFormat, sin embargo, eso envía N líneas de texto de los datos a cada mapeador una línea a la vez [renunciar después de la línea enésima].
me han tratado de establecer la opción y sólo toma N líneas de entrada de enviarlo a 1 línea a la vez a cada mapa:
job.setInt("mapred.line.input.format.linespermap", 10);
He encontrado una lista de correo recomendarme para anular LineRecordReader :: siguiente, sin embargo, eso no es tan simple, ya que los miembros de datos internos son todos privados.
Acabo de comprobar la fuente de NLineInputFormat y codifica Hard LineReader, por lo que anular no ayudará.
Además, por cierto estoy usando Hadoop 0.18 para compatibilidad con Amazon EC2 MapReduce.
Por qué estás tratando de hacer esto? ¿Las líneas múltiples constituyen un solo registro en algún sentido? –
Realmente necesito un número N de líneas aleatorias [como un conjunto], sin embargo, puedo vivir con un consequative. Necesito que lo envíe al reductor correcto. – monksy
Para responder a su pregunta, sí lo hacen. – monksy