2012-06-19 10 views
10

Busco una buena referencia enminería a gran escala con los datos clojure

minería de datos a gran escala con Clojure

sé de muchos buenos libros de programación clojure (Programación Clojure, la alegría de Clojure, .. .), y muchos buenos libros de texto de minería de datos (extracción de conjuntos de datos masivos, gestión de gigabytes, ...). Sin embargo no estoy al tanto de cualquier referencia que se refiere específicamente

minería a gran escala con los datos Clojure

El "con clojure" parte es más importante para mí por las siguientes razones:

* most theoretical analysis uses big-Oh running time, which ignores constants 
* constants matter, if it ends up being a matter of 1 second vs 1 hour (for things that need to be real time) 
* or 1 hour vs 1 week (for batch jobs) 

En en particular, creo que hay mucha interacción entre JVM, Clojure Data Structures, si los datos se almacenan en la memoria o se leen perezosamente desde el disco; eso puede tener el "mismo" algoritmo tener tiempos de ejecución drásticamente diferentes mediante implementaciones "levemente" diferentes.

Por lo tanto, mi pregunta (todo lo anterior fue para evitar ser cerrada por "Check Google"):

lo que es un buen recurso en la minería de datos masivo con Clojure?

Gracias!

+0

Muchos de estos costos constantes provienen en realidad de la VM. En particular, el costo de los objetos primitivos envueltos en la extracción de datos es significativo, por lo que Java siempre es bastante lento allí. Dudo que Clojure ayude mucho allí. De hecho, muchas de las cosas de las que Clojure se enorgullece suenan exactamente como este problema. Inmutabilidad por ejemplo. Cuando extrae datos grandes, quiere evitar copias, ¡y la inmutabilidad y las interfaces agradables generalmente requieren copias! Me gustaría darle una oportunidad a Vala. –

+1

Clojure de estructuras de datos son inmutables pero no requieren la copia de datos existentes. Eche un vistazo a las 'estructuras de datos persistentes de Clojure'. –

Respuesta

13

No creo que nadie haya escrito todavía una buena referencia exhaustiva. Pero sin duda hay una gran cantidad de trabajo que se realiza en este espacio (mi propia compañía incluida!)

Algunos enlaces de interés para el seguimiento:

  • Storm - distribuidos en tiempo real utilizando la computación Clojure. Podría ser utilizado para la minería de datos a gran escala.
  • http://www.infoq.com/presentations/Why-Prismatic-Goes-Faster-With-Clojure - video interesante respecto al rendimiento Clojure y optimización para aplicaciones de aprendizaje automático
  • Incanter - probablemente la biblioteca Clojure líder para las estadísticas y visualización de datos
  • Weka - biblioteca muy completa de minería de datos/aprendizaje de las máquinas para Java (y por lo tanto muy fácil de usar directamente de Clojure)
+0

¿Cuál es su empresa? Parece que su perfil se vincula a un sitio web con un juego en línea. – user1383359

+1

También estoy trabajando lentamente en las fijaciones de Clojure al proyecto Apache Mahout ... –

1

Hay un libro maravilloso que está por venir en mayo de 2013: Clojure Análisis de datos Cookbook. Probablemente lo compre.

http://www.amazon.co.uk/Clojure-Data-Analysis-Cookbook-ebook/dp/B00BECVV9C/ref=sr_1_1?s=books&ie=UTF8&qid=1360697819&sr=1-1

en detalle

de datos está en todas partes y es cada vez más importante para poder ganar ideas que podemos actuar. Usando Clojure para el análisis de datos y la colección , este libro le mostrará cómo obtener nuevas perspectivas y perspectivas a partir de sus datos con una colección esencial de recetas estructuradas prácticas, .

"El Clojure Data Analysis Cookbook" presenta recetas para cada etapa del proceso de análisis de datos.Si raspa datos de una página web, realiza minería de datos o crea gráficos para la web, este libro tiene algo para la tarea en cuestión.

Aprenderá cómo adquirir datos, limpiarlos y transformarlos en gráficos útiles que luego pueden analizarse y publicarse en el Internet. La cobertura incluye temas avanzados como el procesamiento de datos al mismo tiempo, la aplicación de potentes técnicas estadísticas como Bayesian modelado e incluso algoritmos de minería de datos como K-means clustering, redes neuronales y reglas de asociación.

Enfoque

lleno de consejos prácticos, el "Clojure Análisis de Datos Cookbook" ayudará que utilizar completamente sus datos a través de una serie de, recetas mundo paso a paso reales que cubren todos los aspectos de análisis de datos.

Quién este libro es para

La experiencia previa con las técnicas de Clojure y análisis de datos y flujos de trabajo será beneficioso, pero no es esencial.

+1

[publicado] (http://www.packtpub.com/clojure-data-analysis-cookbook/book). más información en [github repo] (https://github.com/erochest/clj-data-analysis/blob/master/index.md). – dribnet

Cuestiones relacionadas