Cada vez que encendamos una consulta como seleccionar * de nombredetabla, Colmena lee el archivo de datos y obtiene los datos enteros sin hacer ningún tipo de agregación (min/max/cuenta, etc.). Llamará a FetchTask en lugar de a mapreduce tarea.
Esta es también una técnica de optimización en Hive. hive.fetch.task.conversion propiedad puede (es decir, tarea FETCH) minimizar la latencia de la sobrecarga de map-reduce.
Esto es como estamos leyendo un archivo hadoop: hadoop fs -gato nombre
Pero si usamos seleccione COLNAMES de nombredetabla, se requiere de un mapa a reducir el trabajo ya que necesita para extraer la 'columna' de cada fila analizándola desde el archivo que carga.
pero para un archivo grande tiene que leer todos los nodos en paralelo. Hive hace eso sin MR? – ernesto