He estado usando el Ruby Classifier library en classify privacy policies. Llegué a la conclusión de que el simple enfoque de bolsa de palabras incorporado en esta biblioteca no es suficiente. Para aumentar la precisión de mi clasificación, quiero entrenar al clasificador en n-gramas además de las palabras individuales.Training Naive Clasificador Bayes en los ngulos
Me preguntaba si hay una biblioteca para preprocesar documentos para obtener n-gramas relevantes (y lidiar adecuadamente con los signos de puntuación). Un pensamiento fue que pude preprocesar los documentos y alimentos pseudo-N-gramas en el Rubí clasificador como:
wordone_wordtwo_wordthree
O tal vez hay una mejor manera de estar haciendo esto, como una biblioteca que tiene ngram basado Naive Bayes Clasificación incorporada desde el getgo. Estoy abierto a utilizar idiomas que no sean Ruby aquí si hacen el trabajo (Python parece ser un buen candidato si es necesario).
gran respuesta +1 – Yavar
NLTK parece increíble en muchos aspectos en comparación con lo que Ruby tiene para ofrecer. Python gana, ¡gracias! – babonk
@babonk mi placer. He encontrado que nltk es un placer de usar e increíblemente poderoso, espero que te diviertas con él: D –