2012-06-07 13 views
5

He tenido una lista de libros en los que cada libro pertenece a una categoría.Categorización de registros en Java

  • vuela un plano - Aviación
  • Pintar un cuadro - Arte
  • 1001 Recetas - Cocina

tengo una enorme lo suficientemente conjunto de muestras de datos. Necesito categorizar mis libros más nuevos usando algún algoritmo. Sé que nunca será 100% exacto, pero una buena suposición es buena para mí.

¿Qué debo usar para implementar algo como esto? ¿Debo ir con Classifier4J y es Vector Classifier?

¿Hay otras herramientas que debería considerar como Weka? Sería genial si alguien pudiera indicarme algunos artículos/ejemplos para comenzar.

Gracias

+0

Puede echar un vistazo a la rápida minero. – toniedzwiedz

+1

Echa un vistazo a esto: [java-text-classification-problem] (http://stackoverflow.com/questions/2821575/java-text-classification-problem), ustedes están haciendo casi exactamente lo mismo. – 16dots

Respuesta

1

Hay un curso sobre https://www.coursera.org/course/ml llamado aprendizaje automático. Si observa su problema como clasificación, debe entrenar N Clasificadores uno contra todos, donde N es el número de sus clases (= categorías). Para capacitar a un clasificador en el uso de los algoritmos descritos en la clase de procesamiento de lenguaje natural https://www.coursera.org/course/nlp, normalmente será similar a las clases existentes http://nlp.stanford.edu/IR-book/html/htmledition/text-classification-and-naive-bayes-1.html. Todo esto podría hacerse en Apache Mahout con https://cwiki.apache.org/confluence/display/MAHOUT/Bayesian.

Cuestiones relacionadas