Necesito escribir un trabajo de MapReduce que obtiene todas las filas en un intervalo de fechas determinado (por ejemplo, el último mes). Habría sido un juego de niños si My Row Key comenzara con Date. Pero mis frecuentes consultas Hbase están en los valores iniciales de la clave.Cómo escanear filas de HBase eficientemente
Mi clave de fila es exactamente A | B | C | 20120121 | D. Donde la combinación de A/B/C junto con la fecha (en el formato YearMonthDay) hace una identificación de fila única.
Mis tablas de Hbase podrían tener hasta unos pocos millones de filas. ¿Debería mi Mapper leer toda la tabla y filtrar cada fila si cae en un rango de fechas determinado o Scan/Filter puede ayudar a manejar esta situación?
¿Alguien podría sugerir (o un fragmento de código) una forma de manejar esta situación de manera efectiva?
Gracias -Panks
¿Por qué no copias el contenido de la tabla en una nueva con la clave reorganizada y desecha la anterior? – Mario
@Mario, ¿y si la mesa tiene un trillón de llaves? Y él tiene que hacer esto a menudo? – markg