Tengo un gran conjunto de datos (c 40G) que quiero usar para algunos NLP (en gran medida vergonzosamente paralelos) en un par de computadoras en el laboratorio, a los cuales hago no tengo acceso de root, y solo 1G de usuario espacio. Experimenté con hadoop, pero por supuesto esto estaba muerto en el agua-- los datos se almacenan en un disco duro externo USB, y no puedo cargarlo en el dfs debido a la tapa del espacio de usuario 1G. He estado buscando en un par de opciones basadas en Python (como yo prefiero usar NLTK en lugar de LingPipe de Java si puedo evitarlo), y parece que las opciones de computación distribuida se parecen:trabajo de cálculo distribuido de Java o Python (con un presupuesto estudiantil)?
- IPython
- DISCO
Después de mi experiencia en hadoop, estoy tratando de asegurarme de que intente hacer una elección informada, cualquier ayuda en lo que sea más apropiado sería muy apreciada.
Amazon EC2 etc. no es realmente una opción, ya que no tengo presupuesto.
¿Ha hablado con la (s) persona (s) con el que responsabilidad root? – Carl