Introducción al aprendizaje por refuerzo

¿Qué es el reinforcement learning?

Reinforcement Learning (RL) o aprendizaje por refuerzo es un acercamiento computacional al aprendizaje obtenido de la interacción. El cuál esta dirigido a un objetivo. Es aprender qué hacer - como mapear situaciones a acciones - .

El aprendiz debe descubrir que acciones dan la mayor recompensa al ejecutarlas.

- Prueba y error.

- Recompensa retardada.

Son las dos carácteristicas más importantes que distinguen al RL. El tipo de problemas que estudia son aquellos que se formalizan como un Proceso de desición de Markov en el cual se modelizan como un agente es capaz de sentir el estado del ambiente y en cierto grado debe poder tomar acción que afecte ese estado. Y cualquier método bien estudiado que resuelva tales problemas son considerados un método de RL.

Elementos

Política: Define el comportamiento del agente en un paso de tiempo dado. Es un mapeo de los estados percibidos a las acciones a tomar cuando está en esos estados.

Señal de recompensa:Define el objetivo. Esta señal define los eventos buenos y malos para el agente. El objetivo del agente es maximizar la recompensa total que recibe a largo plazo.

Función de valor: Especifica que es bueno en el largo plazo. Mapea cada estado a un valor númerico. El valor de un estado es la cantidad total de recompensa que el agente puede eserar acumular en el futuro, empezando en ese estado.

Modelo: Algo que simula el comportamiento del ambiente o que permite hacer inferencias de como el ambiente se comportará. Los modelos son usados para planear, es decir, decidir un curso de acción considerando las posibles situaciones antes de ser experimentadas.

Observaciones:

En el RL moderno hay métodos en el espectro desde bajo nivel, prueba y error, a alto nivel, planeación deliberada. Es decir, el modelo es opcional.

Mientras que la recompensa determina lo deseable de manera inmediata que son los estados del ambiente, los valores indican lo deseable que son a largo plazo después de tomar en cuenta los estados que son probables de seguir y las recompensas disponibles en esos estados.

Procesos de desición de Markov finitos

Los Markov Decision Process (MDP) son una formalización clásica de una sucesión de toma de decisiones, donde las acciones influencian no solo la recompensa inmediata, sino a las situaciones subsequentes o estados, y a así a las recompenzas futuras.

El aprendiz y el que toma decisiones es llamado el agente.

La cosa con la que se interactua, comprendiendo todo lo que está fuera del agente, es llamado el ambiente.

El ambiente también da la recompensa, valores espaciales númericos que el agente busca maximizar a tráves de la elección de acciones.

El agente y el ambiente interactuán en cada paso de tiempo t=0,1,. El agente recibe alguna representación del estado del ambiente, StS, y en base a eso selecciona una acción AtA(s).

Un paso de tiempo después, en parte como una consecuencia de su acción, el agente recibe una recompensa que es un número Rt+1RR, y se encuentra en un nuevo estado, St+1. El MDP y el agente juntos dan como resultado a una sucesión o trayectoria que empieza: S0,A0,R1,S1,A1,R2,S2,A2,R3,

En este caso los conjuntos S,A y R tiene cardinalidad finita. Y Rt,St son variables aleatorias, entonces definimos P(s,r|s,a)=Pr{St=s,Rt=r|St1=s,At1=a} para todo s,sS,aA(s).

Como P es una distribución de probabilidad para cada s y a, entonces sSrRP(s,r|s,a)=1 para todo sS,aA(s).

La probabilidad de cada valor posible para St y Rt depende únicamente del estado y la acción inmediatamente anteriores, St1 y At1 y dados estos, no depende en absoluto de los estados y acciones anteriores. Esto se ve mejor como una restricción no del proceso de decisión, sino del estado. El estado debe incluir información sobre todos los aspectos de la interacción agente-entorno pasada que marcan una diferencia para el futuro. Si es así, se dice que el estado tiene la propiedad de Markov.

A partir de la función dinámica de cuatro argumentos, P, se puede calcular cualquier otra cosa que uno quiera saber sobre el entorno, como las probabilidades de transición de estado,recompensas esperadas para pares estado-acción y las recompensas esperadas por el estado-acción-próximo estado.

Hipótesis de recompensa

"Todo lo que entendemos por objetivos y propósitos puede entenderse como la maximización del valor esperado de la suma acumulada de una señal escalar recibida (llamada recompensa)."

Devoluciones y episodios

Formalicemos la idea de que el objetivo del agente es maximizar la recompensa acumulada en el largo plazo. Dado el paso de tiempo t, denotamos por Gt a la devolución, es decir a la suma de recompensas desde el paso t al paso de tiempo final T. Es decir, Gt=Rt+1+Rt+1+Rt+3++RT, este acercamiento tiene sentido cuando la interacción entre el agente y el ambiente se divide naturalmente en subsecuencias, llamados episodios y cada episodio termina en un estado especial llamado estado terminal. Un episodio sucesivo es independiente del anterior. A este tipo de problemas se le cononcen como tareas episodicas.

Por otra parte exsiten las tareas continuas que siguen continuamente sin limite que no tienen estado terminal, es decir que T=, debido a esto necesitamos otro concepto llamado descuento, el agente intenta seleccionar acciones tales que la sume de recompensas descontadas que recibe en el futuro son maximas. En particular, escoge At para maximizar la devolución esperada descontada Gt=Rt+1+γRt+1+γ2Rt+3+=k=0γkRt+k+1, donde γ es un parámetro 0γ1, llamado tasa de descuento

Notemos que si γ=0, el agente solo toma en cuenta la recompensa del siguiente paso, solo la recompensa inmediata. Por otro lado asi como γ se acerca a 1, la devolución toma en cuenta las recompensas más futuras.

Algo importante es que Gt=Rt+1+γRt+1+γ2Rt+3+γ3Rt+4+=Rt+1+γ(Rt+1+γRt+3+γ2Rt+4+)=Rt+1+γGt+1 Notemos que esto funciona para todo paso de tiempo t>T, incluso si la terminación ocurre en t+1, dado que definimos GT=0.

Política y función de valor

Formalmente la política es un mapeo de los estados a las probabilidades de seleccionar cada posible acción. Si el agente sigue una política π en el tiempo t, entonces π(a|s) es la probabilidad de At=a si St=s.

Los métodos de reinforcement learning especifican como la política del agente cambia dada su experiencia.

La función de valor de un estado s bajo un a política π se denota por vπ(s), es el valor esperado de la devolución empezando en s y siguiendo π. Para los MDPs, podemos definir vπ por vπ(s)=E[Gt|St=s]=Eπ[k=0γkRt+k+1|St=s], para todo sS, Llamamos a la función vπ la función estado valor para la política π.

Similarmente, definimos el valor al tomar una acción a en un estado s bajo la política π, denotada por qπ(s,a), como el valor esperado de la devolución empezando por el estado s, tomando la acción a, y siguiendo la política π qπ(s,a)=E[Gt|St=s,At=a]=Eπ[k=0γkRt+k+1|St=s,At=a]. Llamamos qπ la función acción valor para la política π.

Ecuaciones de Bellman

Una propiedad fuindamental que resulta que tienen las funciones de valor es una relación recursiva, llamada ecuación de Bellman, para cualquier política π y cualquier estado s, la siguiente considición se sostiene entre el valor de s y el valor de sus posibles estados sucesivos: vπ(s)=Eπ[Gt|St=s]=Eπ[Rt+1+γGt|St=s]=aπ(a|s)srp(s,r|s,a)[r+γEπ[Gt+1|St+1=s]]=aπ(a|s)s,rp(s,r|s,a)[r+γvπ(s)], para todo sS, Expresa una relación entre el valor de un estado y los valores de sus estados sucesores. A partir de cada uno de estos estados, el entorno podría responder con uno de varios estados siguientes, s0, junto con una recompensa, r, dependiendo de su dinámica dada por la función p. La ecuación de Bellman promedia todas las posibilidades, ponderando cada una por su probabilidad de ocurrencia. Establece que el valor del estado inicial debe ser igual al valor (descontado) del estado siguiente esperado, más la recompensa esperada a lo largo del camino.

Piense en mirar hacia adelante desde un estado a sus posibles estados sucesores, como lo sugiere el diagrama. Cada círculo abierto representa un estado y cada círculo sólido representa un par estado-acción. A partir del estado s, el nodo raíz en la parte superior, el agente podría tomar cualquiera de un conjunto de acciones (se muestran tres en el diagrama) en función de su política π.

Estas operaciones transfieren información del valor al estado (o par estado-acción) de sus estados sucesores (o par estado-acción).

Políticas óptimas y funciones de valor óptimas

Resolver una tarea de aprendizaje por refuerzo significa, en líneas generales, encontrar una política que logre una gran recompensa a largo plazo. Para MDP finitos, podemos definir con precisión una política óptima de la siguiente manera. Las funciones de valor definen un ordenamiento parcial de las políticas.

Definición. Una política π se dice que es mejor o igual que la política π si el valor esperado de su devolución es mayor o igual que la de π para todos los estados. ππ si y sólo si vπ(s)vπ(s)sS.

Siempre hay al menos una política que es mejor o igual a todas las demás políticas. Esta es una política óptima. Aunque puede haber más de una, denotamos todas las políticas óptimas por π. Comparten la misma función de valor de estado, llamada función de valor de estado óptima, denotada v y definida como v(s)=maxπvπ(s) para todo sS.

Las políticas óptimas también comparten la misma función de valor de acción óptima, denotada q, y definida como q(s,a)=maxπqπ(s,a) para todo sS.

Como v es la función de valor de una política, debe satisfacer la condición de autoconsistencia dada por la ecuación de Bellman para valores de estado. Sin embargo, como es la función de valor óptima, la condición de consistencia de v se puede escribir en una forma especial sin referencia a ninguna política específica. Esta es la ecuación de Bellman para v, o la ecuación de optimalidad de Bellman. Intuitivamente, la ecuación de optimalidad de Bellman expresa el hecho de que el valor de un estado bajo una política óptima debe ser igual al rendimiento esperado para la mejor acción de ese estado: v(s)=maxaA(s)qπ(s,a)=maxaEπ[Gt|St=s,At=a]=maxaEπ[Rt+1+γGt+1|St=s,At=a]=maxaEπ[Rt+1+γv(St+1)|St=s,At=a]=maxas,rp(s,r|s,a)[r+γv(s)]. Las dos últimas ecuaciones son dos formas de la ecuación de optimalidad de Bellman para v. La ecuación de optimalidad de Bellman para q es q(s,a)=E[Rt+1+γmaxaq(St+1,a)|St=s,At=a]=s,rp(s,r|s,a)[r+γmaxaq(s,a)].

Solución análitica a la ecuación

Para MDP finitos, la ecuación de optimalidad de Bellman para v tiene una solución única. La ecuación de optimalidad de Bellman es en realidad un sistema de ecuaciones, una para cada estado, por lo que si hay n estados, entonces hay n ecuaciones en n incógnitas. Si se conoce la dinámica p del entorno, entonces en principio se puede resolver este sistema de ecuaciones para v utilizando cualquiera de una variedad de métodos para resolver sistemas de ecuaciones no lineales. Se puede resolver un conjunto relacionado de ecuaciones para q.

Encontrar la política óptima

Una vez que se tiene v, es relativamente fácil determinar una política óptima. Para cada estado s, habrá una o más acciones en las que se obtenga el máximo en la ecuación de optimalidad de Bellman. Cualquier política que asigne una probabilidad distinta de cero solo a estas acciones es una política óptima. Puede pensar en esto como una búsqueda de un paso. Si tiene la función de valor óptimo, v, entonces las acciones que parecen mejores después de una búsqueda de un paso serán acciones óptimas. Otra forma de decir esto es que cualquier política que sea codiciosa con respecto a la función de evaluación óptima v es una política óptima.

Solución aproximada

La solución explícita de la ecuación de optimalidad de Bellman ofrece una vía para encontrar una política óptima y, por tanto, para resolver el problema del aprendizaje por refuerzo. Sin embargo, esta solución rara vez resulta directamente útil. Es similar a una búsqueda exhaustiva, en la que se analizan todas las posibilidades y se calculan sus probabilidades de ocurrencia y sus deseabilidades en términos de recompensas esperadas. Esta solución se basa en al menos tres supuestos que rara vez son ciertos en la práctica:

(1) conocemos con precisión la dinámica del entorno;

(2) tenemos suficientes recursos computacionales para completar el cálculo de la solución;

y (3) la propiedad de Markov.

Para los tipos de tareas que nos interesan, por lo general no es posible implementar esta solución con exactitud porque se violan varias combinaciones de estos supuestos. Por ejemplo, aunque el primer y el tercer supuesto no presentan problemas para el juego de backgammon, el segundo es un impedimento importante. Como el juego tiene alrededor de 1020 estados, se necesitarían miles de años en las computadoras más rápidas de la actualidad para resolver la ecuación de Bellman para v, y lo mismo sucede para encontrar q. En el aprendizaje por refuerzo, normalmente hay que conformarse con soluciones aproximadas.