Tengo archivos que se llaman part-r-000 [0-9] [0-9] y que contienen campos separados por tabulaciones. Puedo verlos usando hadoop fs -text part-r-00000
pero no puedo cargarlos usando pig.Apache Pig: carga un archivo que muestra bien usando hadoop fs -text
Lo que he intentado:
x = load 'part-r-00000';
dump x;
x = load 'part-r-00000' using TextLoader();
dump x;
pero que sólo me da la basura. ¿Cómo puedo ver el archivo usando pig?
Lo que podría ser relevante es que mi HDF todavía está utilizando CDH-2 en este momento. Además, si descargo el archivo a local y ejecuto file part-r-00000
dice part-r-00000: data
, no sé cómo descomprimirlo localmente.
Creo que su primera 'load' utiliza PigStorage, pero tal vez puede verificar dos veces al ser explícito, 'x = LOAD 'part-r-00000' UTILIZANDO USANDO PigStorage ('\ t')'. Cuando descarga el archivo localmente, si lo ve (es decir, 'tail'), ¿es basura/binario? ¿Puedes dar un ejemplo del código que generó estos datos? –
El uso de PigStorage explícitamente da el mismo resultado. Descargando a local (usando -get o -copyToLocal) el archivo no es legible, i. mi. binario/basura (menos o cola). Trataré de encontrar el código que creó estos archivos e informaré. – exic
Parece que el archivo se ha almacenado como un archivo de secuencia. Pude extraer líneas de él utilizando una función de carga definida por el usuario. ¿Hay una manera más simple que usar el udf? – exic