Estoy entrenando una red neuronal XOR a través de la propagación de retorno utilizando un descenso gradiente estocástico. Los pesos de la red neuronal se inicializan a valores aleatorios entre -0.5 y 0.5. La red neuronal se entrena con éxito alrededor del 80% del tiempo. Sin embargo, a veces se "atasca" al volver a propagarse. Por "atascado", quiero decir que empiezo a ver una tasa decreciente de corrección de errores. Por ejemplo, durante un entrenamiento con éxito, el error total disminuye con bastante rapidez ya que la red entera, así:El error de la red neuronal de XOR deja de disminuir durante el entrenamiento
...
...
Total error for this training set: 0.0010008071327708653
Total error for this training set: 0.001000750550254843
Total error for this training set: 0.001000693973929822
Total error for this training set: 0.0010006374037948094
Total error for this training set: 0.0010005808398488103
Total error for this training set: 0.0010005242820908169
Total error for this training set: 0.0010004677305198344
Total error for this training set: 0.0010004111851348654
Total error for this training set: 0.0010003546459349181
Total error for this training set: 0.0010002981129189812
Total error for this training set: 0.0010002415860860656
Total error for this training set: 0.0010001850654351723
Total error for this training set: 0.001000128550965301
Total error for this training set: 0.0010000720426754587
Total error for this training set: 0.0010000155405646494
Total error for this training set: 9.99959044631871E-4
Testing trained XOR neural network
0 XOR 0: 0.023956746649767453
0 XOR 1: 0.9736079194769579
1 XOR 0: 0.9735670067093437
1 XOR 1: 0.045068688874314006
Sin embargo, cuando se queda atascado, los errores totales están disminuyendo, pero parece ser a una tasa decreciente :
...
...
Total error for this training set: 0.12325486644721295
Total error for this training set: 0.12325486642503929
Total error for this training set: 0.12325486640286581
Total error for this training set: 0.12325486638069229
Total error for this training set: 0.12325486635851894
Total error for this training set: 0.12325486633634561
Total error for this training set: 0.1232548663141723
Total error for this training set: 0.12325486629199914
Total error for this training set: 0.12325486626982587
Total error for this training set: 0.1232548662476525
Total error for this training set: 0.12325486622547954
Total error for this training set: 0.12325486620330656
Total error for this training set: 0.12325486618113349
Total error for this training set: 0.12325486615896045
Total error for this training set: 0.12325486613678775
Total error for this training set: 0.12325486611461482
Total error for this training set: 0.1232548660924418
Total error for this training set: 0.12325486607026936
Total error for this training set: 0.12325486604809655
Total error for this training set: 0.12325486602592373
Total error for this training set: 0.12325486600375107
Total error for this training set: 0.12325486598157878
Total error for this training set: 0.12325486595940628
Total error for this training set: 0.1232548659372337
Total error for this training set: 0.12325486591506139
Total error for this training set: 0.12325486589288918
Total error for this training set: 0.12325486587071677
Total error for this training set: 0.12325486584854453
Mientras estaba leyendo sobre redes neuronales me encontré con una discusión sobre minimas locales y globales minimas y cómo las redes neuronales en realidad no "saben" lo que los mínimos se supone que es en dirección a.
¿Mi red se está estancando en un mínimo local en lugar de un mínimo global?
¡Gracias! Tu respuesta lo dejó mucho más claro. Parece que las redes neuronales no son exactas y que está involucrada cierta cantidad de fuzziness.Intentaré cambiar los parámetros e intentaré solucionar el problema. –
Me encontré con [este artículo] (http://www.ncbi.nlm.nih.gov/pubmed/18252598) (publicado en 1999, un año después del que usted citó) que dice que hay un mínimo local para la red 2-3-1 XOR (estoy usando una red XOR 3-3-1; no estoy seguro de si es necesario el sesgo en la capa de entrada). Nuevamente, al igual que en su caso, este es un resumen. –
También vi [este artículo] (http://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&ved=0CDMQFjAC&url=http%3A%2F%2Fciteseerx.ist.psu.edu % 2Fviewdoc% 2Fdownload% 3Fdoi% 3D10.1.1.31.4770% 26rep% 3Drep1% 26type% 3Dpdf & ei = -WK5TqjAGIaviAL636jTBA & usg = AFQjCNEaQ0jG2bkD4ipXcfgXDr9mHrxRMQ & sig2 = BD8IyRc8Clg2XftdR20W9w) que dice que no hay mínimos para la red XOR más simple, pero esto no parece ser un 2-3-1 o una red 3-3-1. –