You are on page 1of 2

Procesos de decisin de Markov

Problemas de decisin secuenciales

Son los problemas que involucran decisiones cuyo resultado se conoce hasta el final, se considera que se tiene una serie de estados y decisiones asociadas en el tiempo. En estos problemas se tiene incertidumbre asociada con los resultados y posiblemente en los estados. La incertidumbre de una decisin se modela como una probabilidad de llegar al estado j dado que se encuentra en el estado i y realiza la accin a. Modelo de sensores: Normalmente el agente puede censar el ambiente para observar en qu estado se encuentra. Existen dos casos principales: 1. Observa directamente el estado donde se encuentra: proceso de decisin de Markov 2. Se tiene incertidumbre sobre el estado en el que se encuentra: proceso de decisin de Markov parcialmente observable Poltica ptima: dado el modelo de transicin y el modelo de sensores se encuentra una poltica ptima para maximizar la utilidad, esta poltica debe de indicar la accin que se debe ejecutar dado el estado. Las probabilidades de transicin solo dependen del estado actual por lo que son procesos markovianos. Procesos de decisin de Markov

Controlador basado en MDP

Modelo

Solucin MDP

Poltica Controlador

Estado Sistema

Accin

Eventos

El modelo clsico para resolver un MDP se conoce como iteracin de valor y consiste en calcular el la utilidad de cada estado y usar estas para seleccionar la optima. Otros mtodos que existen son iteracin de poltica y programacin lineal Un MDP se define por: Un conjunto finito de estados (S) Un conjunto finito de posibles acciones (A) Un modelo de transicin que especifica la probabilidad de pasar a un estado dado el estado presente P(s | s, a) Una funcin de recompensas, que especifica el valor, de ejecutar cierta accin en el estado s, r(s, a)

La utilidad del estado depende de la secuencia de acciones tomadas a partir de dicho estado i de acuerdo a la poltica p. Si l utilidad es separable se puede estimar como la utilidad de los siguientes estados y la forma ms sencilla es que sea de forma aditiva. Programacin dinmica: dada la condicin de separabilidad, la utilidad de un estado se puede obtener en forma iterativa maximizando la utilidad del siguiente estado: U (i) = R (i) + maxa j P(sj | si, a)U(j) Los problemas con nmero finito de pasos se conocen como MDP de horizonte finito, y los que pueden tener nmero infinito de pasos son MDP de horizonte infinito. Los mtodos para resolver un MDP son: 1. Iteracin de valor (Bellman, 57) 2. Iteracin de poltica (Howards, 60) 3. Programacin lineal (Puterman, 94)

Procesos de decisin de Markov parcialmente observables

Los elementos con los que cuenta un MDP parcialmente observable son los mismos con los que se cuenta en en MDP pero se le aaden 2 cosas nuevas: Una funcin de observacin que especifica la probabilidad de observaciones dado el estado P (O | S) Una distribucin inicial para los estados P (S)

Para resolver un POMDP (procesos de decisin de Markov parcialmente observables) se requiere considerar toda la historia de observaciones y acciones, esto equivale a considerar la distribucin de probabilidad sobre los estados y en base a estas determinar las opciones ptimas.

You might also like