2010-03-11 15 views
9

Apache Pig puede cargar datos de archivos de secuencias de Hadoop utilizando la PiggyBank SequenceFileLoader:El almacenamiento de datos a SequenceFile de Apache Pig

REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;

DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();

log = LOAD '/data/logs' USING SequenceFileLoader AS (...)

¿Hay también una biblioteca por ahí que permitiría escribir archivos de secuencias de Hadoop de Pig?

Respuesta

2

Solo es cuestión de implementar StoreFunc para hacerlo.

Esto es posible ahora, aunque será un poco más fácil una vez que salga Pig 0.7, ya que incluye un rediseño completo de las interfaces Load/Store.

El "paquete de expansión Hadoop" Twitter está a punto de abrir el código en github de código abierto, incluye el código para la generación de carga y almacenamiento funcs basado en Google Protocol Buffers (edificio de formatos de entrada/salida para los mismos - que ya tener esos para archivos de secuencia, obviamente). Compruébalo si necesitas ejemplos de cómo hacer algunas de las cosas menos triviales. Sin embargo, debería ser bastante sencillo.

Cuestiones relacionadas