Empiezo a aventurarme en el código distribuido y tengo problemas para descubrir qué solución se ajusta a mis necesidades en función de todas las cosas que hay. Básicamente tengo una lista de datos python que necesito procesar con una sola función. Esta función tiene algunos bucles anidados pero no tarda demasiado (aproximadamente un minuto) en cada elemento de la lista. Mi problema es que la lista es muy grande (más de 3000 elementos). Estoy mirando el multiprocesamiento, pero creo que quiero experimentar con el procesamiento de varios servidores (porque, idealmente, si los datos aumentan, quiero poder elegir agregar más servidores durante el trabajo para que funcione más rápido) .Sugerencias sobre la distribución de datos/código python sobre nodos de trabajador?
Yo, básicamente, en busca de algo que pueda distribuir esta lista de datos a través de (y no muy necesaria, pero sería bueno si pudiera distribuir mi base de código a través de esto también)
Así que mi pregunta es, ¿qué paquete puede Yo uso para lograr esto? Mi base de datos es hbase, así que ya tengo hadoop en ejecución (nunca usé hadoop, solo lo uso para la base de datos). Miré el apio y también se retorció, pero estoy confundido sobre cuál se ajustará a mis necesidades.
¿Alguna sugerencia?