Ventajas de crear mi propio corpus en NLTK

Tengo una gran cantidad de texto en tablas Mysql. Quiero hacer algunos análisis estadísticos y más adelante algunos NLP en mi texto usando el kit de herramientas NLTK. Tengo dos opciones:Ventajas de crear mi propio corpus en NLTK

extraer todo el texto a la vez de mi mesa DB (tal vez les pone en un archivo si es necesario) y el uso de las funciones NLTK
extraer el texto y convertirlo en un "corpus "que se puede usar con NLTK.

Este último parece bastante complicado y no he encontrado ningún artículo que describe realmente cómo usarlo sólo he encontrado esto: Creating a MongoDB backed corpus reader que utiliza MongoDB como su base de datos y el código es bastante complicado y requiere también saber MongoDB. Por otro lado, el primero parece muy sencillo, pero da como resultado una sobrecarga extrayendo los textos de DB.

Ahora la pregunta es, ¿cuáles son las ventajas del corpus en NLTK? En otras palabras, si tomo el desafío y profundizo en la sobreescritura de métodos NTLK para que pueda leer desde la base de datos MySQL, ¿valdría la molestia? ¿Convertir mi texto en un corpus me da algo que no puedo (o con mucha dificultad) ver con las funciones normales de NLTK?

Además, si conoce algo sobre la conexión de MySQL a NLTK, por favor, hágamelo saber. Gracias

Fuente

2011-02-15 Hossein

Bien después de leer mucho encontré la respuesta. Hay varias funciones muy útiles, como las colocaciones, la búsqueda, el contexto común, similares que se pueden usar en textos que se guardan como corpus en NLTK. implementarlos usted mismo toma bastante tiempo. Si selecciono mi texto de la base de datos y lo coloco en un archivo y uso la función nltk.Text, entonces puedo usar todas las funciones que mencioné antes sin la necesidad de escribir tantas líneas de código o incluso sobrescribir los métodos para poder conectarme a MySql. Aquí está el enlace para más información: nltk.Text

Fuente

2011-02-15 14:25:01 Hossein

Soy el autor del artículo de MongoDB, pero creo que tomó la mejor decisión. Hay mucho que puedes hacer con archivos de texto plano que es mucho más difícil cuando el texto está en una base de datos. Escribí el artículo como un ejemplo de lo que es posible, pero eso no siempre es una buena idea. – Jacob

Su enlace a nlkt.Text está muerto. – Private

He estado buscando utilizar nltk con texto en MongoDB, y parece que la principal ventaja de un corpus mongoDB es la manipulación nltk directa sin la necesidad de un paso de almacenamiento intermedio (por ejemplo, en archivos planos) de los datos de texto DB originales . – chinnychinchin

Ventajas de crear mi propio corpus en NLTK

Respuesta

Cuestiones relacionadas