¿Podría alguien explicarme cómo actualizar el sesgo durante la propagación inversa?¿Cómo actualizar el sesgo en la propagación de redes neuronales?
¡He leído bastantes libros, pero no puedo encontrar actualizaciones de sesgo!
Entiendo que el sesgo es una entrada adicional de 1 con un peso asociado (para cada neurona). Debe haber una fórmula.
Gracias,
@msw
más interesante. Gracias, creo que dos puntos buenos son: 1. "La propiedad de" aproximación universal "de los perceptrones multicapa con las funciones de activación de capa oculta más utilizadas no se cumple si se omiten los términos de sesgo. Pero Hornik (1993) muestra que una condición suficiente para la propiedad de aproximación universal sin sesgos es que ninguna derivada de la función de activación desaparece en el origen, lo que implica que con las funciones de activación sigmoideas habituales, se puede usar un término de sesgo distinto de cero fijo en lugar de un sesgo entrenable ". 2. Las condiciones de polarización se pueden aprender al igual que otros pesos." Así que voy a añadir ya sea en un 'peso constante' o entrenar este peso como todos los demás utilizando descenso de gradiente.
Estoy entendiendo derecho?
Esa es una gran pregunta con una respuesta lamentablemente grande. Este es un punto de partida decente: ftp://ftp.sas.com/pub/neural/FAQ2.html#A_bias – msw
Entrenar a este peso como a todos los demás que usan gradiente de descendencia – pberkes
Se requiere un término de sesgo, un valor de sesgo le permite cambiar la función de activación (función sigmoidea) a la izquierda o a la derecha. Las ponderaciones utilizadas en el término de sesgo se cambiarán en el algoritmo de propagación hacia atrás y se optimizarán mediante el descenso de gradiente o la técnica de optimización avanzada como la función fminunc en Octave/Matlab. –