Estoy trabajando en un proyecto de clasificación de texto grande y tenemos nuestros datos de texto (mensajes simples) almacenados en HBase.HBase & Mahout - Uso de HBase como almacén de datos/fuente para Mahout - Clasificación
Tenemos dos problemas, primero nos gustaría usar HBase como fuente para los clasificadores de Mahout: Bayers y Random Forests.
En segundo lugar, nos gustaría poder almacenar el modelo generado en HBase en lugar de utilizar el enfoque en memoria (InMemoryBayesDatastore); sin embargo, a medida que crezca nuestro juego tendremos problemas con la utilización de la memoria y deseamos probar HBase como una alternativa viable.
Parece haber poco material flotando alrededor de HBase con Mahout y si es posible usarlo como fuente de datos potencial. Estoy usando Mahout 0.6 core API en Java que tiene el almacén de datos InMemory.
Haciendo un poco de excavación Me creer que no (se) un componente HBase Bayers almacén de datos - org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore
Ver JavaDoc mayores aquí: http://www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout-core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html
Sin embargo, mirando a la documentación más reciente parece que esta función ha desaparecido ..? https://builds.apache.org/job/Mahout-Quality/javadoc/
Quería saber si todavía era posible utilizar HBase como una fuente de datos para Bayers y RandomForests y hay casos de usos anteriores en esto?
Gracias!
puede que tenga una mejor oportunidad de obtener esta respuesta publicando esto en la lista de correo en su lugar – Jeffrey04