Conozco los conceptos básicos de las redes neuronales feedforward, y cómo entrenarlos usando el algoritmo backpropagation, pero estoy buscando un algoritmo que pueda usar para entrenar una ANN en línea con el aprendizaje de refuerzo.Entrenar una red neuronal con aprendizaje de refuerzo
Por ejemplo, el problema cart pole swing up es uno que me gustaría resolver con una ANN. En ese caso, no sé qué se debe hacer para controlar el péndulo, solo sé lo cerca que estoy de la posición ideal. Necesito que el ANN aprenda basado en la recompensa y el castigo. Por lo tanto, el aprendizaje supervisado no es una opción.
Otra situación es algo así como snake game, donde los comentarios se retrasan y se limitan a los objetivos y a los objetivos, en lugar de a la recompensa.
Puedo pensar en algunos algoritmos para la primera situación, como escalar montañas o algoritmos genéticos, pero supongo que ambos serían lentos. También podrían ser aplicables en el segundo escenario, pero increíblemente lento y no conducen al aprendizaje en línea.
Mi pregunta es simple: ¿Existe un algoritmo simple para el entrenamiento de una red neuronal artificial con refuerzo de aprendizaje? Principalmente estoy interesado en situaciones de recompensa en tiempo real, pero si hay disponible un algoritmo para situaciones basadas en objetivos, aún mejor.
Buena pregunta, y estoy pensando casi exactamente lo mismo, donde en mi caso la red neuronal es recurrente. Un punto clave es que estás hablando de 2 algoritmos de aprendizaje diferentes. No puede aplicar 2 algoritmos de aprendizaje diferentes al mismo problema sin causar conflictos, a menos que tenga una manera de resolverlos. –