Estoy funcionando colmena 071, el procesamiento de los datos existentes que es tiene la siguiente estructura de directorios:
-tableName
- d = (por ejemplo, 2011-08-01)
- d = 2011-08-02
- d = 2011-08-03
... etc
en cada fecha tengo los archivos de fecha.
ahora para cargar los datos que estoy usandoHive: partición dinámica añadiendo a tabla externa
CREATE EXTERNAL TABLE table_name (i int)
PARTITIONED BY (date String)
LOCATION '${hiveconf:basepath}/TableName';**
Me gustaría que mi script de colmena para poder cargar las particiones pertinentes de acuerdo con una fecha de entrada y el número de días. por lo que si paso fecha = '2011-08-03' y días = '7'
El guión debe cargar los siguientes particiones - d = 2011-08-03
- d = 2011-08 -04
- d = 2011-08-05
- d = 2011-08-06
- d = 2011-08-07
- d = 2011-08-08
- d = 2011-08 -09
No he encontrado ninguna manera de hacerlo. CEPT explicitlly en marcha:
ALTER TABLE table_name ADD PARTITION (d='2011-08-03');
ALTER TABLE table_name ADD PARTITION (d='2011-08-04');
ALTER TABLE table_name ADD PARTITION (d='2011-08-05');
ALTER TABLE table_name ADD PARTITION (d='2011-08-06');
ALTER TABLE table_name ADD PARTITION (d='2011-08-07');
ALTER TABLE table_name ADD PARTITION (d='2011-08-08');
ALTER TABLE table_name ADD PARTITION (d='2011-08-09');
y luego pasando la consulta
select count(1) from table_name;
, pero esto se offcourse no automatizado de acuerdo a la fecha y el día de entrada
¿Hay alguna manera de definir a la externa tabla para cargar particiones de acuerdo con el rango de fechas, o la fecha de aritmética?
¡Hola! ¿Pudiste resolver este problema? Si es así, ¿puedes compartir tu solución? ¡¡Gracias!! – eli
Como estoy trabajando con Amazon EMR. parece que Amazon implementó el siguiente comando: "Alterar tabla X recuperar particiones" que agrega todos los subdirectorios como particiones. esto en parte resuelve el problema usando "donde d> start yd
Tomer
Gracias. Esperaba evitar tener que recuperar particiones, ya que lleva bastante tiempo. – eli