Nuestro flujo de trabajo utiliza un clúster elástico AWS de AWS para ejecutar series de trabajos Pig para manipular una gran cantidad de datos en informes agregados. Lamentablemente, los datos de entrada son potencialmente inconsistentes, y pueden dar como resultado que no se entreguen archivos de entrada o 0 bytes a la canalización o incluso que se produzcan en algunas etapas de la canalización.¿Cómo manejas los archivos de entrada vacíos o faltantes en Apache Pig?
Durante una declaración de carga, cerdo fracasa espectacularmente si bien no encuentra ningún archivo de entrada o de cualquiera de los archivos de entrada son 0 bytes.
¿Hay alguna manera de evitar esto (con suerte dentro de la configuración o script de Pig o la configuración de clúster de Hadoop, sin escribir un cargador personalizado ...)?
(Puesto que estamos utilizando AWS mapa elástica reducir, estamos atascados con cerdo 0.6.0 y Hadoop 0.20.)
Dejé de usar Pig debido a problemas como este. También es casi imposible escribir un cargador personalizado en 0.6.0 (mejoraron la API del cargador en 0.8.0). Considera usar Hive. –