¿Por qué funcionan las funciones sigmoideas en Neural Nets?

Acabo de comenzar a programar redes neuronales. Actualmente estoy trabajando en la comprensión de cómo funciona una red neuronal Backpropogation (BP). Si bien el algoritmo para el entrenamiento en redes BP es bastante sencillo, no pude encontrar ningún texto sobre por qué funciona el algoritmo. Más específicamente, estoy buscando algún razonamiento matemático para justificar el uso de funciones sigmoideas en redes neuronales, y lo que las hace imitar casi cualquier distribución de datos arrojada sobre ellas.¿Por qué funcionan las funciones sigmoideas en Neural Nets?

Gracias!

Fuente

2012-07-26 Anshul Porwal

La función sigmoidea introduce la no linealidad en la red. Sin una función de activación no lineal, la red solo puede aprender funciones que son combinaciones lineales de sus entradas. El resultado se llama universal approximation theorem o Cybenko theorem, después de que el caballero que lo demostró en 1989. Wikipedia es un buen punto de partida, y tiene un enlace al artículo original (la prueba es algo complicada, aunque). La razón por la que usaría un sigmoide en lugar de otra cosa es que es continuo y diferenciable, su derivada es muy rápida de calcular (en oposición a la derivada de tanh, que tiene propiedades similares) y tiene un rango limitado (desde 0 a 1, exclusivo)

Fuente

2012-07-27 07:24:57 mbatchkarov

Buena respuesta, pero la suposición "continua (y por lo tanto diferenciable)" no se sostiene. Ejemplo: abs (x) que es continuo en cero pero no diferenciable. – Michael

Es cierto, editado mi respuesta – mbatchkarov

El artículo de Wikipedia dice esto, sin embargo: * "Kurt Hornik demostró en 1991 que no es la elección específica de la función de activación, sino más bien la propia arquitectura multicapa de alimentación directa que da redes neuronales el potencial de ser Aproximaciones universales. Las unidades de salida siempre se supone que son lineales. "* De hecho, no parece decir nada sobre la necesidad de una función de activación no lineal. Pero la afirmación formal del teorema dice "función continua no constante, limitada y monótonamente creciente", ¿quizás la parte * limitada * y monótona implica no linealidad? – Desty

¿Por qué funcionan las funciones sigmoideas en Neural Nets?

Respuesta

Cuestiones relacionadas