2012-05-16 68 views

Respuesta

34

En realidad hay un muy buen ejemplo on Wikipedia:

En términos simples, un clasificador de Bayes ingenuo asume que la presencia (o ausencia) de una característica particular de una clase no está relacionada con la presencia (o ausencia) de cualquier otra característica, dada la variable de clase. Por ejemplo, una fruta puede considerarse una manzana si es roja, redonda y de aproximadamente 4 "de diámetro. Incluso si estas características dependen una de la otra o de la existencia de otras características, un clasificador ingenuo de Bayes considera que todas estas propiedades para contribuir de forma independiente a la probabilidad de que esta fruta es una manzana.

Básicamente, se trata de "ingenua" porque hace suposiciones que pueden o no llegar a ser correcta.

+5

El artículo de la wikipedia lo explica correctamente, pero no estoy de acuerdo con que "haga suposiciones que pueden ser correctas o no". Con la cantidad correcta de datos de entrenamiento, hace un buen trabajo al filtrar los parámetros irrelevantes. La parte "ingenua" es que no considera la dependencia entre los parámetros ... y, por lo tanto, puede tener que mirar los datos redundantes. – Chip

6

Si los datos son compuesto por un vector de características X = {x1, x2, ... x10} y las etiquetas de su clase Y = {y1, y2, .. y5}. Por lo tanto, un clasificador de Bayes identifica la etiqueta de clase correcta como la que maximiza la siguiente fórmula:

P (y/x) = P (X/Y) * P (y) = P (x1, x2, ... x10/a) * P (y)

Así que para, sigue siendo no ingenuo Sin embargo, es difícil calcular P (x1, x2, ... x10/Y), por lo que suponemos que las características son independientes, esto es lo que llamamos el supuesto ingenuo, por lo tanto, terminamos con la siguiente fórmula en su lugar

P (y/x) = P (x 1/a) * P (x2/a) * ... P (x10/a) * P (y)

2

se llama ingenua, ya que hace la suposición que todos los atributos son independientes el uno del otro. Esta suposición es por qué se llama ingenuo, ya que en muchas situaciones del mundo real esto no se ajusta. A pesar de esto, el clasificador funciona extremadamente bien en muchas situaciones del mundo real y tiene un rendimiento comparable a redes neutrales y SVM en ciertos casos (aunque no todos).

0

Para la clasificación cuando encontramos la distribución conjunta el problema es que simplemente refleja los datos de entrenamiento y también es muy difícil de calcular. Entonces necesitamos algo que se generalice más útilmente.

El modelo ingenuo generaliza fuertemente que cada atributo se distribuye con independencia de cualesquiera otros atributos.

Realmente ayuda a no preocuparse por la dependencia entre los atributos en gran medida.

Cuestiones relacionadas