Pruebas automáticas en Apache Hive

Estoy a punto de embarcarme en un proyecto que utiliza Apache Hadoop/Hive que implicará una colección de scripts de consulta de colmena para producir datos de alimentación para varias aplicaciones de flujo descendente. Estos scripts parecen candidatos ideales para algunas pruebas unitarias: representan el cumplimiento de un contrato API entre mi almacén de datos y las aplicaciones cliente, y como tal, es trivial escribir cuáles deberían ser los resultados esperados para un conjunto determinado de datos de inicio. Mi problema es cómo ejecutar estas pruebas.Pruebas automáticas en Apache Hive

Si estaba trabajando con consultas SQL, podría utilizar algo como SQLlite o Derby para abrir rápidamente bases de datos de prueba, cargar datos de prueba y ejecutar una colección de pruebas de consulta en su contra. Desafortunadamente, no conozco ninguna de esas herramientas para Hive. Por el momento, lo mejor que puedo hacer es hacer que el marco de prueba muestre una instancia local de hadoop y ejecute Hive en contra de eso, pero nunca he hecho eso antes y no estoy seguro si funcionará o será el camino correcto.

Además, no estoy interesado en una discusión pedante sobre si lo que estoy haciendo son pruebas unitarias o pruebas de integración, solo necesito poder probar que mi código funciona.

Fuente

2011-02-23 Mark Tozzi

Hive tiene un modo especial independiente, específicamente diseñado para fines de prueba. En este caso, puede ejecutarse sin hadoop. Creo que es exactamente lo que necesitas. Hay un enlace a la documentación:

Fuente

2011-02-24 19:04:48

También es posible que desee considerar la siguiente entrada del blog que describe la automatización de pruebas unitarias utilizando una clase de utilidad costumbre y la hormiga: http://dev.bizo.com/2011/04/hive-unit-testing.html

Fuente

2011-08-29 22:40:21 btiernay

estoy trabajando como parte de un equipo para soportar una gran plataforma de datos y análisis, y también tenemos este tipo de problema.

Hemos estado buscando por un tiempo y nos encontramos con dos herramientas muy prometedoras: https://github.com/klarna/HiveRunner https://github.com/bobfreitas/HadoopMiniCluster

HiveRunner es un marco construido encima de JUnit para probar la colmena Consultas. Inicia un HiveServer independiente con memoria HSQL como metastore. Con él se puede stub tablas, vistas, muestras simuladas, etc.

Hay algunas limitaciones en las versiones de la colmena sin embargo, pero definitivamente lo recomiendo

Espero que le ayuda =)

Fuente

2014-09-02 19:04:48

@ Julio Estoy tratando de ejecutar HelloHiveRunner, pero cuando uso CustomHandler para createTable, obtengo la excepción diciendo No puedo encontrar la clase. ¿Hay alguna forma de que pueda establecer HIVE_AUX_JARS_PATH? Gracias – user1393608

Sé que esto es un hilo viejo, pero por si acaso alguien lo encuentra. He seguido toda la prueba de colmenas minicluster &, y descubrí que las cosas han cambiado con MR2 y YARN, pero en el buen sentido. He reunido un artículo y repo github para dar un poco de ayuda en ella:

http://www.lopakalogic.com/articles/hadoop-articles/hive-testing/

espero que ayude!

Fuente

2015-05-25 18:06:24 user2836591

Pruebas automáticas en Apache Hive

Respuesta

Cuestiones relacionadas