Estoy tratando de analizar los archivos de datos separados por tabulaciones generados por nuestros servicios usando Elastic Map Reduce de Amazon a través de un programa Pig. Las cosas van bien, excepto que todos nuestros archivos de datos contienen una fila de encabezado que define el propósito de cada columna. Obviamente, las cabeceras (cuerda) no pueden ser arrojados a valores de datos numéricos, por lo que reciben advertencias de cerdo como la siguiente:¿Cómo recorto una fila de encabezado de los archivos procesados por Hadoop's Pig?
2011-03-17 22:49:55,378 [main] WARN org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigHadoopLogger - org.apache.pig.builtin.PigStorage: Unable to interpret value [<snip>] in field being converted to double, caught NumberFormatException <For input string: "headerName"> field discarded
Tengo un filtro después de la declaración de carga que intenta que yo no opere más tarde en ninguna línea de encabezado (filtrando los términos del encabezado), pero me gustaría deshacerme del ruido de advertencia para evitar enmascarar cualquier posible problema (como los campos de datos reales que no se emiten correctamente).
¿Esto es posible?