Acabo de comenzar a programar redes neuronales. Actualmente estoy trabajando en la comprensión de cómo funciona una red neuronal Backpropogation (BP). Si bien el algoritmo para el entrenamiento en redes BP es bastante sencillo, no pude encontrar ningún texto sobre por qué funciona el algoritmo. Más específicamente, estoy buscando algún razonamiento matemático para justificar el uso de funciones sigmoideas en redes neuronales, y lo que las hace imitar casi cualquier distribución de datos arrojada sobre ellas.¿Por qué funcionan las funciones sigmoideas en Neural Nets?
Gracias!
Buena respuesta, pero la suposición "continua (y por lo tanto diferenciable)" no se sostiene. Ejemplo: abs (x) que es continuo en cero pero no diferenciable. – Michael
Es cierto, editado mi respuesta – mbatchkarov
El artículo de Wikipedia dice esto, sin embargo: * "Kurt Hornik demostró en 1991 que no es la elección específica de la función de activación, sino más bien la propia arquitectura multicapa de alimentación directa que da redes neuronales el potencial de ser Aproximaciones universales. Las unidades de salida siempre se supone que son lineales. "* De hecho, no parece decir nada sobre la necesidad de una función de activación no lineal. Pero la afirmación formal del teorema dice "función continua no constante, limitada y monótonamente creciente", ¿quizás la parte * limitada * y monótona implica no linealidad? – Desty