16

Estoy intentando que un agente aprenda los movimientos del mouse necesarios para realizar mejor alguna tarea en un entorno de aprendizaje de refuerzo (es decir, la señal de recompensa es la única respuesta para aprendizaje).Generalizando Q-learning para trabajar con un * espacio de acción * continuo

Espero utilizar la técnica de Q-learning, pero mientras he encontrado a way to extend this method to continuous state spaces, parece que no puedo encontrar la manera de solucionar un problema con un espacio de acción continuo.

Pude forzar que todos los movimientos del mouse fueran de cierta magnitud y solo en un cierto número de direcciones diferentes, pero cualquier forma razonable de hacer que las acciones sean discretas produciría un gran espacio de acción. Dado que el Q-learning estándar requiere que el agente evalúe todas las posibles acciones de, tal aproximación no resuelve el problema en ningún sentido práctico.

Respuesta

7

La forma más común de resolver este problema es con actor-critic methods. Estos se extienden naturalmente a espacios de acción continua. El Q-learning básico podría divergir al trabajar con aproximaciones; sin embargo, si aún desea usarlo, puede intentar combinarlo con un mapa autoorganizado, como se hace en "Applications of the self-organising map to reinforcement learning". El documento también contiene algunas referencias adicionales que pueden serle útiles.

+0

Oh wow, ambos suenan puntualmente. Los probaré y aceptaré tu respuesta si funcionan como espero que lo hagan. – zergylord

3

Por lo que estás haciendo, no creo que necesites trabajar en espacios de acción continua. Aunque el mouse físico se mueve en un espacio continuo, internamente el cursor solo se mueve en pasos discretos (generalmente en niveles de píxel), por lo que obtener cualquier precisión por encima de este umbral parece que no tendrá ningún efecto en el rendimiento de su agente. El espacio de estado todavía es bastante grande, pero es finito y discreto.

+0

Esto presenta el problema que mencioné con respecto a las aproximaciones discretas (aunque me doy cuenta de que mi dominio es técnicamente discreto, para empezar), que es inviable pensar en cada posible par de coordenadas como una posible acción. – zergylord

+0

Estoy de acuerdo con @templatetypedef. Puede usar acciones discretas con un espacio de estado continuo. Las acciones discretas son mucho más agradables para trabajar. – danelliottster

9

Existen numerosas formas de extender el aprendizaje de refuerzo a acciones continuas. Una forma es usar métodos de actor crítico. Otra forma es usar métodos de gradiente de política.

Una vez extensa explicación de los diferentes métodos se puede encontrar en el siguiente documento, que está disponible en línea: Reinforcement Learning in Continuous State and Action Spaces

+1

Los métodos de crítica de actor son un tipo de método de gradiente de política. El actor, que está parametrizado, implementa la política, y los parámetros se desplazan en la dirección del gradiente del rendimiento del actor, que es estimado por el crítico. – HelloGoodbye

+0

El enlace dado está roto ahora. –

+0

El enlace roto dice "hasselt", así que tal vez fue éste: http://oai.cwi.nl/oai/asset/19689/19689B.pdf – dasWesen

11

avance rápido hasta este año, la gente de DeepMind propone un refuerzo profunda método actor y crítico de aprendizaje para tratar con ambos espacio continuo de estado y acción. Se basa en una técnica llamada gradiente de política determinista. Consulte el documento Continuous control with deep reinforcement learning y algunos implementations.

+4

Sí, ellos Realmente popularicé el aprendizaje de refuerzo: ¡ahora hay varias maneras de manejar acciones continuas! El más relevante, creo, es el Q-learning con funciones de ventaja normalizadas, ya que es el mismo algoritmo de q-aprendizaje en su corazón.Simplemente obliga a los valores de acción a ser una forma cuadrática, desde la cual se puede obtener la acción codiciosa analíticamente. https://arxiv.org/pdf/1603.00748.pdf – zergylord

+0

También querrá consultar el documento de Atari https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf – Shaun

+0

Esto fue maravilloso. Gracias. –

Cuestiones relacionadas