2011-02-15 29 views
6

Tengo una gran cantidad de texto en tablas Mysql. Quiero hacer algunos análisis estadísticos y más adelante algunos NLP en mi texto usando el kit de herramientas NLTK. Tengo dos opciones:Ventajas de crear mi propio corpus en NLTK

  1. extraer todo el texto a la vez de mi mesa DB (tal vez les pone en un archivo si es necesario) y el uso de las funciones NLTK
  2. extraer el texto y convertirlo en un "corpus "que se puede usar con NLTK.

Este último parece bastante complicado y no he encontrado ningún artículo que describe realmente cómo usarlo sólo he encontrado esto: Creating a MongoDB backed corpus reader que utiliza MongoDB como su base de datos y el código es bastante complicado y requiere también saber MongoDB. Por otro lado, el primero parece muy sencillo, pero da como resultado una sobrecarga extrayendo los textos de DB.

Ahora la pregunta es, ¿cuáles son las ventajas del corpus en NLTK? En otras palabras, si tomo el desafío y profundizo en la sobreescritura de métodos NTLK para que pueda leer desde la base de datos MySQL, ¿valdría la molestia? ¿Convertir mi texto en un corpus me da algo que no puedo (o con mucha dificultad) ver con las funciones normales de NLTK?

Además, si conoce algo sobre la conexión de MySQL a NLTK, por favor, hágamelo saber. Gracias

Respuesta

3

Bien después de leer mucho encontré la respuesta. Hay varias funciones muy útiles, como las colocaciones, la búsqueda, el contexto común, similares que se pueden usar en textos que se guardan como corpus en NLTK. implementarlos usted mismo toma bastante tiempo. Si selecciono mi texto de la base de datos y lo coloco en un archivo y uso la función nltk.Text, entonces puedo usar todas las funciones que mencioné antes sin la necesidad de escribir tantas líneas de código o incluso sobrescribir los métodos para poder conectarme a MySql. Aquí está el enlace para más información: nltk.Text

+3

Soy el autor del artículo de MongoDB, pero creo que tomó la mejor decisión. Hay mucho que puedes hacer con archivos de texto plano que es mucho más difícil cuando el texto está en una base de datos. Escribí el artículo como un ejemplo de lo que es posible, pero eso no siempre es una buena idea. – Jacob

+0

Su enlace a nlkt.Text está muerto. – Private

+0

He estado buscando utilizar nltk con texto en MongoDB, y parece que la principal ventaja de un corpus mongoDB es la manipulación nltk directa sin la necesidad de un paso de almacenamiento intermedio (por ejemplo, en archivos planos) de los datos de texto DB originales . – chinnychinchin

Cuestiones relacionadas