Tengo una gran cantidad de texto en tablas Mysql. Quiero hacer algunos análisis estadísticos y más adelante algunos NLP en mi texto usando el kit de herramientas NLTK. Tengo dos opciones:Ventajas de crear mi propio corpus en NLTK
- extraer todo el texto a la vez de mi mesa DB (tal vez les pone en un archivo si es necesario) y el uso de las funciones NLTK
- extraer el texto y convertirlo en un "corpus "que se puede usar con NLTK.
Este último parece bastante complicado y no he encontrado ningún artículo que describe realmente cómo usarlo sólo he encontrado esto: Creating a MongoDB backed corpus reader que utiliza MongoDB como su base de datos y el código es bastante complicado y requiere también saber MongoDB. Por otro lado, el primero parece muy sencillo, pero da como resultado una sobrecarga extrayendo los textos de DB.
Ahora la pregunta es, ¿cuáles son las ventajas del corpus en NLTK? En otras palabras, si tomo el desafío y profundizo en la sobreescritura de métodos NTLK para que pueda leer desde la base de datos MySQL, ¿valdría la molestia? ¿Convertir mi texto en un corpus me da algo que no puedo (o con mucha dificultad) ver con las funciones normales de NLTK?
Además, si conoce algo sobre la conexión de MySQL a NLTK, por favor, hágamelo saber. Gracias
Soy el autor del artículo de MongoDB, pero creo que tomó la mejor decisión. Hay mucho que puedes hacer con archivos de texto plano que es mucho más difícil cuando el texto está en una base de datos. Escribí el artículo como un ejemplo de lo que es posible, pero eso no siempre es una buena idea. – Jacob
Su enlace a nlkt.Text está muerto. – Private
He estado buscando utilizar nltk con texto en MongoDB, y parece que la principal ventaja de un corpus mongoDB es la manipulación nltk directa sin la necesidad de un paso de almacenamiento intermedio (por ejemplo, en archivos planos) de los datos de texto DB originales . – chinnychinchin