2009-05-07 16 views
26

Estoy por tomar un proyecto relacionado con la minería de datos. Antes de saltar, quería buscar las diferentes herramientas de minería de datos (preferiblemente de código abierto) que permiten informes basados ​​en la web. En mi caso, los datos se me proporcionarían, por lo que no se suponía que debería rastrearlo.Herramientas de código abierto de minería de datos

En pocas palabras, estoy buscando una herramienta que lo haga - Análisis de datos, informes basados ​​en web, proporciona algún tipo de tablero y características de minería de datos.

He trabajado en Microsoft Analysis Services y BOXI y me he retrasado mirando a Pentaho, que parece ser una buena opción.

Por favor, comparta sus experiencias en cualquier herramienta que conozca.

aplausos

+0

Un punto más - Me gustaría una herramienta que puede interactuar bien con cualquiera de código .NET o incluso Python. – Arnkrishn

Respuesta

12

creo WEKA es el mejor software de código abierto DM por ahí.

Compruébelo usted mismo: http://www.cs.waikato.ac.nz/ml/weka/

+0

Pero solo para la clasificación, un subtema de minería de datos. –

-1

Soy un pitón-er mí mismo y tengo que decir:

Sí! Todo eso se puede hacer en Python.

La última vez que jugué con Beautiful Soup [0]. Es un módulo realmente simple de usar que le permite tomar/extraer datos de html y xml (excelente para 'screen scraping').

Si no conoces Python, .... bueno, es muy fácil de aprender.

[0] http://www.crummy.com/software/BeautifulSoup/

+1

La minería de datos se trata de descubrir conocimiento "oculto" en los datos, no tiene nada que ver (al menos directamente) con el desmantelamiento de la pantalla, pero gracias por señalarme en Beautiful Soup, jugaré con él. =) –

+1

** ¡Todo se puede hacer también en ASSEMBLER! ** –

8

Weka es grande, pero es posible que desee probar el kit de herramientas de minería de datos en lugar de naranja.

http://www.ailab.si/orange/

Editar: Y a partir de noviembre de 2010, debo decir que me gusta mucho KNIME.

+2

+1 para KNIME. Descubrí esto hace unas semanas y me quedé muy impresionado con lo que puede hacer. Admite secuencias de comandos Java, Python y R, y el complemento BIRT hace que escribir informes sea muy sencillo. –

5

R tiene una gran cantidad de paquetes excelentes relacionados con la minería de datos. En particular, mira:

También enlaza con Weka (see the RWeka package). Y se puede integrar con .Net (a través de COM) o Python (a través de RPy o RPy2).

Estoy de acuerdo con respecto a Pentaho para una plataforma de informes, aunque es un proyecto muy grande dependiendo de para qué lo utilice.

1

Pentaho es una solución muy profesional. Definitivamente una muy buena elección.

5

también debe comprobar hacia fuera Apache Mahout. Puede ser bastante útil para algunas tareas de aprendizaje automático a gran escala, como la agrupación de usuarios.

+0

La licencia de Apache es la mayor ventaja, porque otras bibliotecas mencionadas usan GPL que prohíbe casos de uso comercial – TomR

1

Creo que KNIME merece unirse a esta lista también.

2

Creo que RapidMiner es una excelente herramienta que debería agregarse a esta lista.

3

Lo intentaría con las nuevas herramientas de google.

-en primer lugar debe obtener la ID de la API para el almacenamiento de google, que es donde va a almacenar y manipular los datos que va a analizar.

-Entonces necesita obtener la ID de api para google-prediction-api (http://code.google.com/apis/predict/docs/getting-started.html), que por lo que vi es un fantástico procesador de minería de datos externo. La API Prediction le permite obtener más de sus datos y hace que sus patrones sean más accesibles. Además de usar los datos numéricos y nominales tradicionales, también puede usar datos de texto que gracias a esta API se pueden utilizar como ejemplo para categorizar los correos electrónicos por idioma.

-Por último puede utilizar BigQuery que le permitirá realizar un análisis ad-hoc, informes estandarizado, la exploración de datos de aplicaciones de prototipos (http://code.google.com/apis/bigquery/)

0

Junto con las herramientas, recomendaría encarecidamente aprender Python y R. Estos lenguajes ayudan mucho durante el análisis. Además, los grandes conjuntos de datos pueden 'analizarse a medida'. También puede crear su propio panel personalizado usando Javascript (echa un vistazo a la numerous charting and visualization libraries)

5

RapidMiner es mi herramienta de minería de datos preferida.

1

Weka es fuerte para la clasificación y/machine learning /. Para muchos, esto se considera más parte de la inteligencia artificial que de la extracción de datos real. RapidMiner está en gran medida en la misma línea, pero con una interfaz de usuario mucho más agradable. Pentaho es el soporte profesional para Weka AFAICT.

Es posible que desee echar un vistazo a ELKI, http://elki.dbs.ifi.lmu.de/, que es un proyecto comparable que se centra en la agrupación de algoritmos y detecciones de valores atípicos, otras dos tareas clave de extracción de datos.

3

KEEL (http://keel.es) está escrito en Java y es bueno para usar el cálculo evolutivo para la minería de datos.

2

WEKA (ya mencionado), Orange (http://orange.biolab.si/), Tanagra (http://data-mining-tutorials.blogspot.com) se pueden encontrar buenos tutoriales allí.

Son muy buenas herramientas para la minería de datos.

2

Puede consultar mi software, SPMF data mining framework.

Es un software de Java de código abierto que ofrece más de 70 algoritmos para:

  • minera conjunto de elementos frecuentes, minería regla
  • asociación,
  • patrón secuencial minero
  • minera regla secuencial.
  • y más ..
Cuestiones relacionadas