2011-02-04 11 views

Respuesta

5

Es el logaritmo de una probabilidad. Con un gran conjunto entrenado, las probabilidades reales son números muy pequeños, por lo que los logaritmos son más fáciles de comparar. Teóricamente, los puntajes van desde infinitesimalmente cerca de cero hasta infinito negativo. 10**score * 100.0 le dará la probabilidad real, que de hecho tiene una diferencia máxima de 100.

+1

+1 Acabo de comprobar el [fuente] (http://classifier.rubyforge.org/classes/Classifier/Bayes.src/M000041.html) para el método 'clasificaciones', y está en buen camino. –

+0

Esto tiene sentido, pero todavía estoy luchando con la fórmula de la probabilidad real. Un puntaje típico para mi conjunto es algo así como -8.84. Entonces 10 * (- 8.84) * 100 = 840. Todavía me falta algo. –

+1

Parece que multiplicó 10 por -8.84. Tienes que elevar 10 a la potencia "-8.84". –

4

En realidad para calcular la probabilidad de un clasificador de bayes ingenuo típico donde b es la base, es b^score/(1 + b^score) Este es el logit inverso (http://en.wikipedia.org/wiki/Logit) Sin embargo, dados los supuestos de independencia del NBC, estos puntajes tienden a ser muy altos o muy bajos y las probabilidades calculadas de esta manera se acumularán en los límites . Es mejor calcular los puntajes en un conjunto rezagado y hacer una regresión logística de precisión (1 o 0) en la puntuación para tener una mejor idea de la relación entre puntaje y probabilidad.

de un papel Jason Rennie: Salidas 2,7 Naïve Bayes son a menudo Overcondent bases de datos de texto con frecuencia tienen 10.000 a 100.000 palabras del vocabulario distintos; documentos a menudo contienen 100 o más términos. Por lo tanto, hay una gran oportunidad para la duplicación. Para tener una idea de cuánta duplicación existe, formamos un modelo MAP Naive Bayes con el 80% de los 20 documentos de grupos de noticias. Se obtuvieron los valores p (cjd; D) (posterior) en el 20% restante de los datos y se muestran las estadísticas sobre maxc p (cjd; D) en tabla 2.3. Los valores son altamente overcondent. El 60% de los documentos de prueba tienen asignado a posterior de 1 cuando se redondea a 9 dígitos decimales. A diferencia de la regresión logística, Naive Bayes no está optimizado para producir valores de probabilidad razonables. La regresión logística realiza la optimización conjunta de los coeficientes lineales, convergiendo a los valores de probabilidad apropiados con datos de entrenamiento adecuados. Naive Bayes optimiza los coeficientes uno a uno. Produce salidas realistas solo cuando la suposición de independencia es verdadera. Cuando las características incluyen información duplicada significativa (como suele ser el caso con el texto), las posteriores provistas por Naive Bayes son altamente sobreconceptivas.

Cuestiones relacionadas