He estado jugando con Hive durante algunos días, pero todavía tengo problemas con la partición.¿Cómo puedo particionar una tabla con HIVE?
He estado grabando registros de Apache (formato Combine) en Hadoop durante algunos meses. Se almacenan en formato de texto fila, se repartió por fecha (a través de canal): /logs/aaaa/mm/dd/hh/*
Ejemplo:
/logs/2012/02/10/00/Part01xx (02/10/2012 12:00 am)
/logs/2012/02/10/00/Part02xx
/logs/2012/02/10/13/Part0xxx (02/10/2012 01:00 pm)
La fecha en el archivo combined log está siguiendo este formato [10/feb/2012: 00: 00: 00 -0800]
¿Cómo puedo crear una tabla externa con una partición en Hive que use mi partición física? No puedo encontrar ninguna buena documentación en la partición de Hive. He encontrado pregunta relacionada, como:
Si se me carga mis registros en una tabla externa con la colmena, no puedo particionar con el tiempo, ya que no es el buen formato (Feb < => 02). Incluso si tuviera un buen formato, ¿cómo puedo transformar una cadena "10/02/2012: 00: 00: 00 -0800" en el directorio múltiple "/ 2012/02/10/00"?
Eventualmente podría utilizar la secuencia de comandos de cerdo para convertir mis registros sin procesar en tablas de colmena, pero en este punto solo debería utilizar el cerdo en lugar de la colmena para hacer mis informes.
¿Cómo sería la creación de la tabla? y me gustaría hacer una consulta para usar esas particiones? – zzarbi
Ver mis ediciones en la respuesta. – Olaf
Tendré que probar que me pondré en contacto con usted tan pronto como pueda – zzarbi