El almacenamiento de datos a SequenceFile de Apache Pig

Apache Pig puede cargar datos de archivos de secuencias de Hadoop utilizando la PiggyBank SequenceFileLoader:El almacenamiento de datos a SequenceFile de Apache Pig

REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;

DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();

log = LOAD '/data/logs' USING SequenceFileLoader AS (...)

¿Hay también una biblioteca por ahí que permitiría escribir archivos de secuencias de Hadoop de Pig?

Fuente

2010-03-11 asquithea

Solo es cuestión de implementar StoreFunc para hacerlo.

Esto es posible ahora, aunque será un poco más fácil una vez que salga Pig 0.7, ya que incluye un rediseño completo de las interfaces Load/Store.

El "paquete de expansión Hadoop" Twitter ~~está a punto de abrir el código~~ en github de código abierto, incluye el código para la generación de carga y almacenamiento funcs basado en Google Protocol Buffers (edificio de formatos de entrada/salida para los mismos - que ya tener esos para archivos de secuencia, obviamente). Compruébalo si necesitas ejemplos de cómo hacer algunas de las cosas menos triviales. Sin embargo, debería ser bastante sencillo.

Fuente

2010-03-12 12:24:13 SquareCog

Esto pareció funcionar para mí. https://github.com/kevinweil/elephant-bird/pull/73

Fuente

2012-05-31 22:07:06 qqz

El almacenamiento de datos a SequenceFile de Apache Pig

Respuesta

Cuestiones relacionadas