2010-05-16 10 views
5

Tengo un gran conjunto de datos (c 40G) que quiero usar para algunos NLP (en gran medida vergonzosamente paralelos) en un par de computadoras en el laboratorio, a los cuales hago no tengo acceso de root, y solo 1G de usuario espacio. Experimenté con hadoop, pero por supuesto esto estaba muerto en el agua-- los datos se almacenan en un disco duro externo USB, y no puedo cargarlo en el dfs debido a la tapa del espacio de usuario 1G. He estado buscando en un par de opciones basadas en Python (como yo prefiero usar NLTK en lugar de LingPipe de Java si puedo evitarlo), y parece que las opciones de computación distribuida se parecen:trabajo de cálculo distribuido de Java o Python (con un presupuesto estudiantil)?

  • IPython
  • DISCO

Después de mi experiencia en hadoop, estoy tratando de asegurarme de que intente hacer una elección informada, cualquier ayuda en lo que sea más apropiado sería muy apreciada.

Amazon EC2 etc. no es realmente una opción, ya que no tengo presupuesto.

+7

¿Ha hablado con la (s) persona (s) con el que responsabilidad root? – Carl

Respuesta

1

no hay respuestas reales; Lo habría puesto como un comentario, pero en este sitio estás obligado a responder solo si todavía eres un novato

si es realmente tan paralelo como eso, y son solo un par de computadoras, ¿podrías? ¿dividir el conjunto de datos manualmente antes de tiempo?

¿ha confirmado que no va a haber un cortafuegos o similar que le impida usar algo así de todos modos?

es posible que solo tenga 1 GB de espacio de usuario, pero, si es Linux, ¿qué pasa con/tmp? (si Windows, ¿qué pasa con% temp%?)

3

Hable con el departamento de TI de su escuela (especialmente si está en la universidad), si es por una tarea o investigación apuesto a que estarían más que felices de dar tienes más espacio en el disco.

1

Definitivamente, hable con el departamento de TI de su escuela. No es una buena idea utilizar recursos de computadora que no le pertenecen.

Encontré JPPF, que permite ejecutar aplicaciones con grandes requisitos de potencia de procesamiento en cualquier cantidad de computadoras. No estoy seguro de si necesita instalar el software en las máquinas cliente, pero ciertos puertos deben estar abiertos en las máquinas del cliente.

0

Si hay más recursos en su departamento de informática que no van, tendrá que considerar descomponer su conjunto de datos en fragmentos manejables antes de trabajar en él, y reducir los resultados a un conjunto significativo.

Más recursos de TI sería el camino a seguir.

¡Buena suerte!

Ben

Cuestiones relacionadas