Puedo encontrar el nombre del archivo de entrada en una clase mapper utilizando FileSplit al escribir el programa en Java.Obtener el nombre del archivo de entrada en el programa hadoop de transmisión
¿Hay una manera correspondiente para hacer esto cuando escribo un programa en Python (usando el streaming?)
He encontrado lo siguiente en el documento de streaming hadoop en Apache:
Ver parámetros configurados. Durante la ejecución de un trabajo de transmisión, , se transforman los nombres de los parámetros "mapred". Los puntos (.) quedan subrayados (_). Por ejemplo, mapred.job.id se convierte en mapred_job_id y mapred.jar se convierte en mapred_jar. En su código, use los nombres de los parámetros con los guiones bajos.
Pero todavía no puedo entender cómo hacer uso de esto dentro de mi asignador.
Cualquier ayuda es muy apreciada.
Gracias
Parece que la propiedad que necesita Krishnamutry se denomina "map.input.file": es probable que aparezca como variable de entorno "map_input_file" para el trabajo de transmisión. –
Nota: los períodos deben sustituirse por guiones bajos –
Gracias - se actualizó. –