2010-11-18 13 views
5

¿Qué motores y marcos de minería de datos de código abierto/libre conoce y usa para datos de texto?Motores y marcos de minería de datos?

¡Gracias por cualquier consejo!

+0

¿Está realmente buscando un motor de minería de textos? Los motores de minería de datos tienden a trabajar en metadatos en lugar de en el texto mismo. – ianmayo

Respuesta

1

No sé sobre motores o estructuras, pero he usado esta herramienta llamada Weka, tiene muchos algoritmos implementados en ella.

+0

¡gracias! como encontré los autores escribieron un buen libro http://www.cs.waikato.ac.nz/ml/weka/book.html – Edward83

3

No estoy seguro de lo que estás buscando. Tal vez algo así como Lucene?

1

Y para el procesamiento de texto (en lugar de la minería de datos numéricos y la agrupación en clúster), el kit de herramientas NLTK merece la pena. Esto tiene como objetivo enseñar las técnicas de procesamiento del lenguaje natural en Python. Por lo tanto, es ideal para jugar con él, y encontrará muchas de las clases de componentes e implementaciones útiles si elige usar Python.

+0

¡gracias! si uno de mis proyectos estará en python verifico este toolkit;) – Edward83

2

RapidMiner es gratuito y de código abierto y se ejecuta en Windows, Mac, Linux, y es un buen programa gráfico basado en el flujo de trabajo. Ejecuta todo el código de Weka, y se integra con R.

+0

@el gracias;) lo comprobaré) – Edward83

0

Apache Mahout ofrece un conjunto de algoritmos populares que también se pueden aplicar a datos de texto y ¡también es bastante escalable! Apache UIMA no ofrece algoritmos de minería de datos, pero es un marco ampliamente utilizado en el procesamiento de lenguaje natural.

2

Weka y Rapidminer no son tan fuertes en la agrupación. En su mayoría hacen clasificaciones y predicciones similares, pero muy pocas agrupaciones. Eche un vistazo a ELKI, que es como WEKA un proyecto universitario, pero tiene toneladas de métodos de detección de clústeres y de valores atípicos.

1

Soy el autor de un software de código abierto de Java para minería de patrones frecuente. Ofrece algoritmos para minar patrones secuenciales, reglas de asociación, conjuntos de elementos frecuentes, etc.

Aunque no está diseñado específicamente para la minería de textos, algunos de los algoritmos podrían aplicarse para minar patrones frecuentes en el texto. Por ejemplo, si quiere encontrar algunas secuencias de palabras que aparecen a menudo juntas en varias oraciones, puede aplicar un algoritmo de minería de patrones secuencial. Pero para hacer eso, necesitaría algún preproceso antes de aplicar mi software para que su archivo de texto esté en el formato adecuado.

puede comprobar el software aquí: http://www.philippe-fournier-viger.com/spmf/

3

Apache Mahout es una biblioteca Open Source Machile de aprendizaje, que se puede utilizar con o sin MapReduce (Apache Hadoop).

proporciona a la aplicación de algoritmos folloeing en Java:

  • Filtrado Colaborativo
  • de usuario y recomendadores basada artículo
  • K-medias, Fuzzy K-means clustering
  • Mean Shift agrupación
  • Agrupamiento de proceso de Dirichlet
  • Asignación de Dirichlet latente
  • descomposición de valor singular
  • paralelo patrón frecuente minera
  • complementaria Clasificador bayesiano
  • clasificador basado
  • bosque aleatorio árbol de decisión

Puede leer más: http://mahout.apache.org/

http://girlincomputerscience.blogspot.com.br/2010/11/apache-mahout.html

http://www.ibm.com/developerworks/java/library/j-mahout/

+0

gracias por su consejo :) – Edward83

Cuestiones relacionadas