Escribí un simple ayudante para hacer esto: lo llamas con el tamaño_batch, la clase de objeto para la consulta y la devolución de llamada que maneja los elementos en la consulta.
(Nota, estoy usando djangoappengine y formato de la consulta, por lo tanto Django - pero se puede modificar para que se ajuste.)
def loop_over_objects_in_batches(batch_size, object_class, callback):
logging.info("Calling batched loop with batch_size: %d, object_class: %s, callback: %s" % (batch_size, object_class, callback))
num_els = object_class.objects.all().count()
num_loops = num_els/batch_size
remainder = num_els - num_loops * batch_size
offset = 0
while offset < num_loops * batch_size:
logging.info("Processing batch (%d:%d)" % (offset, offset+batch_size))
query = object_class.objects.all()[offset:offset + batch_size]
for q in query:
callback(q)
offset = offset + batch_size
if remainder:
logging.info("Processing remainder batch (%d:-)" % offset)
query = object_class.objects.all()[offset:]
for q in query:
callback(q)
No había necesidad de contar() y explícitamente trabajar a cabo el resto - el [: ] slice devolverá una consulta de resto y podría detectar eso en el ciclo y partir cuando así sea. Lo escribí explícitamente así para aclarar lo que estaba haciendo. –