Motores y marcos de minería de datos?

¿Qué motores y marcos de minería de datos de código abierto/libre conoce y usa para datos de texto?Motores y marcos de minería de datos?

¡Gracias por cualquier consejo!

Fuente

2010-11-18 Edward83

¿Está realmente buscando un motor de minería de textos? Los motores de minería de datos tienden a trabajar en metadatos en lugar de en el texto mismo. – ianmayo

No sé sobre motores o estructuras, pero he usado esta herramienta llamada Weka, tiene muchos algoritmos implementados en ella.

Fuente

2010-11-18 00:57:24

¡gracias! como encontré los autores escribieron un buen libro http://www.cs.waikato.ac.nz/ml/weka/book.html – Edward83

No estoy seguro de lo que estás buscando. Tal vez algo así como Lucene?

Fuente

2010-11-18 01:13:06

Y para el procesamiento de texto (en lugar de la minería de datos numéricos y la agrupación en clúster), el kit de herramientas NLTK merece la pena. Esto tiene como objetivo enseñar las técnicas de procesamiento del lenguaje natural en Python. Por lo tanto, es ideal para jugar con él, y encontrará muchas de las clases de componentes e implementaciones útiles si elige usar Python.

Fuente

2010-11-18 01:14:09 winwaed

¡gracias! si uno de mis proyectos estará en python verifico este toolkit;) – Edward83

RapidMiner es gratuito y de código abierto y se ejecuta en Windows, Mac, Linux, y es un buen programa gráfico basado en el flujo de trabajo. Ejecuta todo el código de Weka, y se integra con R.

Fuente

2010-11-30 07:26:08

@el gracias;) lo comprobaré) – Edward83

Apache Mahout ofrece un conjunto de algoritmos populares que también se pueden aplicar a datos de texto y ¡también es bastante escalable! Apache UIMA no ofrece algoritmos de minería de datos, pero es un marco ampliamente utilizado en el procesamiento de lenguaje natural.

Fuente

2011-04-25 10:15:39

RapidMiner es mi solución preferida minería de datos: http://www.RapidMiner.com/

Aquí es estudio de las herramientas de minería de datos más populares entre los datos de expertos en minería: http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html

KDnuggets Encuesta 2011: RapidMiner son los datos más utilizado solución de minería entre los expertos en minería de datos en todo el mundo.

Fuente

2011-05-31 08:53:05

Weka y Rapidminer no son tan fuertes en la agrupación. En su mayoría hacen clasificaciones y predicciones similares, pero muy pocas agrupaciones. Eche un vistazo a ELKI, que es como WEKA un proyecto universitario, pero tiene toneladas de métodos de detección de clústeres y de valores atípicos.

Fuente

2011-12-29 15:25:58

Soy el autor de un software de código abierto de Java para minería de patrones frecuente. Ofrece algoritmos para minar patrones secuenciales, reglas de asociación, conjuntos de elementos frecuentes, etc.

Aunque no está diseñado específicamente para la minería de textos, algunos de los algoritmos podrían aplicarse para minar patrones frecuentes en el texto. Por ejemplo, si quiere encontrar algunas secuencias de palabras que aparecen a menudo juntas en varias oraciones, puede aplicar un algoritmo de minería de patrones secuencial. Pero para hacer eso, necesitaría algún preproceso antes de aplicar mi software para que su archivo de texto esté en el formato adecuado.

puede comprobar el software aquí: http://www.philippe-fournier-viger.com/spmf/

Fuente

2012-03-18 16:36:20 Phil

Apache Mahout es una biblioteca Open Source Machile de aprendizaje, que se puede utilizar con o sin MapReduce (Apache Hadoop).

proporciona a la aplicación de algoritmos folloeing en Java: