Estoy intentando que un agente aprenda los movimientos del mouse necesarios para realizar mejor alguna tarea en un entorno de aprendizaje de refuerzo (es decir, la señal de recompensa es la única respuesta para aprendizaje).Generalizando Q-learning para trabajar con un * espacio de acción * continuo
Espero utilizar la técnica de Q-learning, pero mientras he encontrado a way to extend this method to continuous state spaces, parece que no puedo encontrar la manera de solucionar un problema con un espacio de acción continuo.
Pude forzar que todos los movimientos del mouse fueran de cierta magnitud y solo en un cierto número de direcciones diferentes, pero cualquier forma razonable de hacer que las acciones sean discretas produciría un gran espacio de acción. Dado que el Q-learning estándar requiere que el agente evalúe todas las posibles acciones de, tal aproximación no resuelve el problema en ningún sentido práctico.
Oh wow, ambos suenan puntualmente. Los probaré y aceptaré tu respuesta si funcionan como espero que lo hagan. – zergylord