He utilizado LingPipe, Stanford's NER, RiTa y varias bibliotecas de similitud de frases para mis proyectos anteriores de Java que se centraban en el procesamiento de texto (pre) (indexación, etiquetado xml, detección de temas, etc.) de grandes cantidades de texto en inglés (alrededor 10,000 documentos sumando a> 1gb de texto). Tal vez soy un mal programador de Java, pero me encuentro escribiendo un montón de código y usando muchas bibliotecas cuando cambio a un corpus diferente. En general, siento que podría haber una mejor herramienta para el trabajo.Python's NLTK vs. Librerías Java relacionadas?
Supongo que mi pregunta es, ¿me beneficiaré de cambiar a Python y NLTK para recuperación de información/procesamiento de lenguaje? ¿O hay suficientes pros y contras para hacerlo muy subjetivo? ¿El NLTK es lo suficientemente intuitivo para ser aprendido rápidamente?
Me ensuciaría las manos, pero no tendré acceso a una máquina personal en los próximos días.
Gracias por el consejo. Parece que la mayoría de las personas en el campo prefieren Python y NLTK, pero la gran cantidad de soluciones Java me hizo pensar que estaba abandonando un barco más boyante. – wnewport