Estoy tratando de resolver un problema de clasificación simple.Clasificar datos usando Apache Mahout
El problema:
Tengo un conjunto de texto y tengo que clasificarlos en función del contenido.
Solución usando Mahout:
Entendí que tengo que convertir la entrada a un archivo de secuencia para generar el modelo. Sí, pude hacer esto. Ahora, ¿cómo clasifico mis datos de prueba? El ejemplo 20News solo prueba la corrección. Pero, quiero hacer la clasificación real.
No estoy seguro si necesito escribir código o usar algunas clases existentes disponibles para clasificar el conjunto de prueba.
OMI, las secciones de la clasificación en el libro podría mejorarse. Las secciones sobre clasificación son prolijas, poco claras y, a menudo, no sequitur. Podría haber más ejemplos de codificación java y menos ejemplos de bash shell. La sección de clasificación podría ser mejor si se escribiera más como los capítulos de introducción: Mostrar el formato para los archivos de clasificación, cómo leerlos, cómo cargarlos en su clasificador, una vez entrenado, cómo usar el clasificador para clasificar una nueva muestra. –
Ojalá Mahout tenga más y mejor documentación. Las personas que son expertas en el aprendizaje automático tienen dificultades para comprender la estructura del conducto de procesamiento y la arquitectura del código. Incluso los javadocs usan terminología inapropiada (setGramSize debe establecerse en GNGramSize). La pequeña semántica crea una GRAN diferencia en la comprensión de conceptos y códigos. –