He estado usando mazo para inferir temas para un archivo de texto que contiene 100.000 líneas (alrededor de 34 MB en formato mazo). Pero ahora necesito ejecutarlo en un archivo que contiene un millón de líneas (alrededor de 180 MB) y obtengo una excepción java.lang.outofmemory. ¿Hay alguna forma de dividir el archivo en archivos más pequeños y crear un modelo para los datos presentes en todos los archivos combinados? gracias de antemanoModelo de tema Mallet
Respuesta
no estoy seguro acerca de la Mallet escalabilidad para grandes volúmenes de datos, pero proyectan http://dragon.ischool.drexel.edu/ puede almacenar sus datos en el disco persistencia respaldado por lo tanto, se puede ampliar a tamaños corpus ilimitadas (con bajo rendimiento, por supuesto)
El modelo seguirá siendo enorme, incluso si lo lee desde múltiples archivos. ¿Has intentado aumentar el tamaño del montón de tu java vm?
Dado el tamaño de la memoria de la PC actual, debería ser fácil usar un montón de hasta 2GB. Debe probar la solución de una sola máquina antes de considerar el uso de un clúster.
La excepción java.lang.outofmemory se produce principalmente debido a que no hay suficiente espacio en el montón. Puede usar -Xms y -Xmx para establecer el espacio de almacenamiento dinámico para que no vuelva a aparecer.
En bin/mallet.bat valor aumento de esta línea:
set MALLET_MEMORY=1G
- 1. ¿tiene Mallet una GUI?
- 2. Modelado de temas en MALLET vs NLTK
- 3. Mallet CRF SimpleTagger Ajuste del rendimiento
- 4. Mallet vs Weka para la clasificación de texto
- 5. tema
- 6. Tema Control.Invoke
- 7. Crear tema personalizado o usar tema estándar en WPF
- 8. Tema personalizado que anula el tema predeterminado WP7
- 9. Tema de luz para AlertDialog?
- 10. Confusión de tema en SpreadsheetML
- 11. Archivo de tema WiX bootstrapper?
- 12. Depuración de carga montaje tema
- 13. Django tema/repositorio de piel
- 14. diagrama de núcleo tema personalizado?
- 15. anidada Lambda tema de captura
- 16. Tema de Android no configurado
- 17. ¿Cambiar el tema de Doxygen?
- 18. Obtendrá colores de tema programáticamente
- 19. Iphone Tema Web _WebThreadLockFromAnyThread
- 20. Temas: ¿Dependiente del tema?
- 21. Tema mersenne segura tornado
- 22. Tema Eclipse Indigo
- 23. jQuery tema JScrollPane ipad
- 24. scale_y_log10 ggplot() tema
- 25. Transmisión en vivo Tema
- 26. JsonValue ARC tema
- 27. complicada consulta MySQL tema
- 28. Gdata tema paquete perl
- 29. ArrayList Extracción tema objeto
- 30. Tema mínimo para Eclipse
Parece que el kit de herramientas de Dragón está muerto aunque. No ha habido ninguna actividad desde 2007. Además, no está claro qué licencia utiliza (¿desarrollo comercial permitido?) – chaostheory