2010-01-27 13 views
7

alt text http://img693.imageshack.us/img693/724/markov.pngMarkov proceso de toma

estoy un poco confundido acerca de algunos puntos aquí:

  1. ¿Qué significa decir que será un éxito del 70% de las veces se trata de un hecho ¿acción? ¿Significa eso que cada vez que intenta realizar una acción A, 70% del tiempo realiza esa acción A y el otro 30% realiza la acción que lo lleva al mismo estado, o simplemente que es como si siempre lo hiciera? la acción A, pero solo el 30% de las veces simplemente no lo hace? Espero ser claro :(
  2. ¿Cómo es posible tener varios estados consecutivos con la misma utilidad? En teoría, la utilidad no siempre debe disminuir, cuanto más lejos se encuentre de los estados con una recompensa?
  3. Sabiendo Sólo la información que di arriba, es posible inferir cuál es la factor de descuento (gamma)? Si es así, ¿cómo?
  4. ¿es posible calcular la Recompensa por los estados y cómo?

Respuesta

4

Hay un patrón para manejar la mayoría de los problemas MDP, pero creo que probablemente haya omitido alguna información de la descripción del problema, lo más probable es que tenga que ver con el estado al que intenta llegar o la forma en que el episodio termina (lo que sucede si te escapas del borde de la cuadrícula). Hice todo lo posible por responder a sus preguntas, pero agregué una introducción al proceso que utilizo para tratar este tipo de problemas.

En primer lugar, la utilidad es una medida bastante abstracta de cuánto desea estar en un estado determinado. Definitivamente es posible tener dos estados con la misma utilidad, incluso cuando se mide la utilidad con heurística simple (distancia euclidiana o de Manhattan). En este caso, supongo que el valor de la utilidad y la recompensa son intercambiables.

A largo plazo, el objetivo en este tipo de problemas suele ser ¿cómo se maximiza la recompensa esperada (a largo plazo)? La tasa de aprendizaje, gamma, controla cuánto énfasis pone en el estado actual frente a dónde le gustaría terminar; efectivamente, puede pensar en gamma como un espectro que va desde 'hacer lo que más me beneficia en este intervalo de tiempo ' en el otro extremo ' explorar todas mis opciones, y volver a la mejor '. Sutton y Barto en el libro allí en reinforcement learning tienen algunos muy buenos explanations de cómo funciona esto.


Antes de empezar, repase la pregunta y asegúrese de que puede responder con confianza a las siguientes preguntas.

  1. ¿Qué es un estado? ¿Cuántos estados hay?
  2. ¿Qué es una acción? ¿Cuántas acciones hay?
  3. Si comienza en el estado u, y aplica una acción a, ¿cuál es la probabilidad de alcanzar un nuevo estado v?

¿Entonces las respuestas a las preguntas?

  1. Un estado es un vector (x, y). La cuadrícula es 5 por 5, por lo que hay 25 estados.
  2. Hay cuatro acciones posibles, {E, N, S, W}
  3. La probabilidad de alcanzar con éxito un estado adyacente después de aplicar una acción adecuada es 0,7, la probabilidad de no moverse (permanecer en el mismo estado es 0,3) Asumiendo (0,0) es la celda superior izquierda y (4,4) es la celda inferior derecha, la siguiente tabla muestra un pequeño subconjunto de todas las transiciones posibles.
 
Start State Action   Final State Probability 
--------------------------------------------------- 
(0,0)   E    (0,0)   0.3 
(0,0)   E    (1,0)   0.7 
(0,0)   E    (2,0)   0 
... 
(0,0)   E    (0,1)   0 
... 
(0,0)   E    (4,4)   0 
(0,0)   N    (0,0)   0.3 
... 
(4,4)   W    (3,4)   0.7 
(4,4)   W    (4,4)   0.3 

¿Cómo podemos comprobar que esto tiene sentido para este problema?

  1. Compruebe que la tabla tenga un número apropiado de entradas. En una cuadrícula de 5 por 5 hay 25 estados y 4 acciones, por lo que la tabla debe tener 100 entradas.
  2. Compruebe para asegurarse de que para un par de estado/acción de inicio, solo dos entradas tienen probabilidad de ocurrencia distinta de cero.

Editar. respondiendo a la solicitud de las probabilidades de transición a el estado objetivo. La notación siguiente se supone

  • v es el estado final
  • u es el Estado de la fuente
  • a es la acción, en el que no se menciona, se da a entender que la acción aplicada no es relevante.
 
P(v=(3,3) | u =(2,3), a=E) = 0.7 
P(v=(3,3) | u =(4,3), a=W) = 0.7 
P(v=(3,3) | u =(3,2), a=N) = 0.7 
P(v=(3,3) | u =(3,4), a=S) = 0.7 
P(v=(3,3) | u =(3,3)) = 0.3 
+0

¿Cómo definiría la función de transición al estado seleccionado (en negrita)? –

+1

He editado mi publicación original para incluir una respuesta a esta pregunta –

+0

Lo que usted llama tasa de aprendizaje/gamma es conocido por mí con el nombre de factor de descuento/lambda. – ziggystar

1

ad.1) probablemente no es que el robot tiene siempre para moverse, es decir, esos 30% son "ah, ahora descanso un poco" o "no había energía para moverse en absoluto".

+0

Así que mi función de transición es un vector de un solo valor? T (s, a, s ') = (1.0)? Contrariamente a mi suposición inicial de que era T (s, a, s ') = (0.7, 0.3), ¿es la primera coordenada cuando realmente se mueve y la segunda cuando se queda? –

+0

¿Por qué 1.0? Prefiero esta sintaxis: P (s '| s) = 0.7, P (s | s) = 0.3, donde s'! = S. – greenoldman

0

he formulado este problema como un proceso de toma Finite-Horizonte Markov y lo resolvió mediante la Directiva de la iteración. A la derecha de cada iteración, hay una representación en cuadrícula codificada por colores de las acciones recomendadas para cada estado, así como también la cuadrícula/matriz de recompensa original.

Revise la política/estrategia final en la Etapa 4. ¿Está de acuerdo con su intuición?

enter image description here

enter image description here

enter image description here

enter image description here

enter image description here

Cuestiones relacionadas