¿Qué motores y marcos de minería de datos de código abierto/libre conoce y usa para datos de texto?Motores y marcos de minería de datos?
¡Gracias por cualquier consejo!
¿Qué motores y marcos de minería de datos de código abierto/libre conoce y usa para datos de texto?Motores y marcos de minería de datos?
¡Gracias por cualquier consejo!
No estoy seguro de lo que estás buscando. Tal vez algo así como Lucene?
Y para el procesamiento de texto (en lugar de la minería de datos numéricos y la agrupación en clúster), el kit de herramientas NLTK merece la pena. Esto tiene como objetivo enseñar las técnicas de procesamiento del lenguaje natural en Python. Por lo tanto, es ideal para jugar con él, y encontrará muchas de las clases de componentes e implementaciones útiles si elige usar Python.
¡gracias! si uno de mis proyectos estará en python verifico este toolkit;) – Edward83
RapidMiner es gratuito y de código abierto y se ejecuta en Windows, Mac, Linux, y es un buen programa gráfico basado en el flujo de trabajo. Ejecuta todo el código de Weka, y se integra con R.
@el gracias;) lo comprobaré) – Edward83
Apache Mahout ofrece un conjunto de algoritmos populares que también se pueden aplicar a datos de texto y ¡también es bastante escalable! Apache UIMA no ofrece algoritmos de minería de datos, pero es un marco ampliamente utilizado en el procesamiento de lenguaje natural.
RapidMiner es mi solución preferida minería de datos: http://www.RapidMiner.com/
Aquí es estudio de las herramientas de minería de datos más populares entre los datos de expertos en minería: http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html
KDnuggets Encuesta 2011: RapidMiner son los datos más utilizado solución de minería entre los expertos en minería de datos en todo el mundo.
Weka y Rapidminer no son tan fuertes en la agrupación. En su mayoría hacen clasificaciones y predicciones similares, pero muy pocas agrupaciones. Eche un vistazo a ELKI, que es como WEKA un proyecto universitario, pero tiene toneladas de métodos de detección de clústeres y de valores atípicos.
Soy el autor de un software de código abierto de Java para minería de patrones frecuente. Ofrece algoritmos para minar patrones secuenciales, reglas de asociación, conjuntos de elementos frecuentes, etc.
Aunque no está diseñado específicamente para la minería de textos, algunos de los algoritmos podrían aplicarse para minar patrones frecuentes en el texto. Por ejemplo, si quiere encontrar algunas secuencias de palabras que aparecen a menudo juntas en varias oraciones, puede aplicar un algoritmo de minería de patrones secuencial. Pero para hacer eso, necesitaría algún preproceso antes de aplicar mi software para que su archivo de texto esté en el formato adecuado.
puede comprobar el software aquí: http://www.philippe-fournier-viger.com/spmf/
Apache Mahout es una biblioteca Open Source Machile de aprendizaje, que se puede utilizar con o sin MapReduce (Apache Hadoop).
proporciona a la aplicación de algoritmos folloeing en Java:
Puede leer más: http://mahout.apache.org/
http://girlincomputerscience.blogspot.com.br/2010/11/apache-mahout.html
gracias por su consejo :) – Edward83
¿Está realmente buscando un motor de minería de textos? Los motores de minería de datos tienden a trabajar en metadatos en lugar de en el texto mismo. – ianmayo