You are on page 1of 65

ptimo estoca

stico
Control o
Prof. John F. Moreno T.

Maestra en Finanzas

Din
amica de portafolios
I

Partimos de considerar un mercado financiero conformado por


N activos activos.

Asumimos que la dinamica del precio de los diferentes activos


esta dada (por el momento no la estudiaremos).

El objetivo es determinar la din


amica del valor de un
portafolio autofinanciado.

Consideramos que el tiempo esta dividido en periodos de


longitud t, y las negociaciones solo tiene lugar en los
instantes nt, n = 0, 1, 2, ....

Al referirnos al periodo t estaremos haciendo referencia al


tiempo transcurrido en el intervalo [t,t + t).

Notacion

N =Numero total de activos en el mercado.

hi (t) = n
umero de unidades del activo i que se tienen en el
periodo t.

h(t) = [h1 (t), h2 (t), ..., hN (t)], portafolio que se tiene durante el
periodo t.

c(t) = monto de dinero consumido por unidad de tiempo


durante el periodo t.

Si (t) = precio del activo i durante el periodo t.

V (t) = valor del portafolio en el tiempo t.

Informacion y decisiones en el modelo


I

En el tiempo t, es decir al inicio del periodo t = [t,t + t),


traemos con nosotros un portafolio viejo
h(t t) = {hi (t t), i = 1, ..., N} del periodo t t.

En el tiempo t podemos observar el vector de precios


S(t) = [S1 (t), ..., SN (t)].

En el tiempo t, despu
es de haber observado S(t),
seleccionamos una nuevo portafolio h(t) que se
mantendr
a durante el periodo t.

En el tiempo t seleccionamos una tasa de consumo c(t)


para el periodo t.

Tanto h(t) como c(t) se asumen constantes durante el periodo


t.

La condicion de autofinanciamiento

Solo consideramos pares portafolio-consumo (h, c) que sean


autofinanciables, es decir los cambios en el valor del portafolio
entre periodos se deben exclusivamente a consumos y cambios en
el precio de los activos que lo conforman, no por la entrada o
salida de dinero exogeno.


ANALISIS

Observamos que el valor de nuestra riqueza en el tiempo t (V (t)),


al inicio del periodo t esta determinada por el valor del portafolio
viejo h(t t),
N

V (t) = hi (t t)Si (t) = h(t t)S(t)1

(1)

i=1

es decir, el valor de la riqueza al inicio del periodo t es igual a lo


que se obtendra por vender el portafolio que se trae (el viejo) al
precio de hoy.

1 La

notaci
on xy = N
i=1 xi yi sera la utilizada para denotar el producto punto
de x y y.

Se asume que el monto obtenido producto de esta venta se utiliza


para:
I

Reinvertir en un nuevo portafolio h(t).

Consumir a la tasa c(t) durante el periodo t.

El costo del nuevo portafolio adquirido en el tiempo t es:


N

hi (t)Si (t) = h(t)S(t)

i=1

y el costo de la tasa de consumo es c(t)t, ya que c(t) es consumo


por unidad de tiempo.

Obtenemos la siguiente ecuaci


on presupuestaria debida a la
condicion de autofinanciamiento,
h(t t)S(t) = h(t)S(t) + c(t)t

S(t) [h(t) h(t t)] +c(t)t = 0


|
{z
}
h(t)

S(t)h(t) + c(t)t = 0
Si sumamos y restamos el termino S(t t)h(t) en la expresion
anterior tenemos que:
S(t t)h(t) + S(t)h(t) S(t t)h(t) + c(t)t = 0

S(t t)h(t) + [S(t) S(t t)]h(t) + c(t)t = 0


|
{z
}
S(t)

S(t t)h(t) + S(t)h(t) + c(t)t = 0

Si hacemos que t 0 en esta ultima expresi


on, tenemos que:
S(t)dh(t) + dS(t)dh(t) + c(t)dt = 0

(2)

y considerando de nuevo la ecuaci


on (1) y haciendo que t 0 se
tiene que:
N

V (t) = hi (t t)Si (t) = h(t t)S(t) V (t) = h(t)S(t)


i=1

Si tomamos la diferencial de It
o de V (t) = h(t)S(t) se tiene que:
dV (t) = h(t)dS(t) + S(t)dh(t) + dS(t)dh(t)

y utilizando la ecuacion (2):


dV (t) = h(t)dS(t) c(t)dt

expresion que muestra claramente la condici


on de
autofinanciemiento.

(3)

Podemos resumir lo dicho hasta el momento en las siguientes


definiciones, donde asumimos que {S(t);t 0} es un proceso
N-dimensional de precios dado.
I

Una estrategia de portafolio (o simplemente un portafolio)


es un proceso N-dimensional FtS -adaptado {h(t);t 0}.

El proceso de valor V h correspondiente al portafolio h esta


dado por:
N

V h (t) = hi (t)Si (t)


i=1

Un proceso de consumo es cualquier proceso unidimensional


FtS -adaptado {c(t);t 0}.

Un par (h, c) se dice autofinanciado si el proceso de valor


asociado V h satisface la condici
on.
dV h (t) = h(t)dS(t) c(t)dt

Para un portafolio dado h, el correspondiente portafolio relativo u


esta dado por:
ui (t) =

hi (t)Si (t)
V h (t)

i = 1, 2, ..., N.

donde,
N

ui (t) = 1

i=1

Podemos ver que ui representa la proporci


on relativa del portafolio
que esta invertida en el activo i.

En terminos del portafolio relativo la condici


on de
autofinanciamiento nos dice que el (h, c) es autofinanicado si y solo
si
N

dV h (t) = V h (t) ui (t)


i=1

dSi (t)
c(t)dt
Si (t)

Dividendos

Consideramos ahora el proceso {D1 (t), D2 (t), ..., DN (t)}, donde


cada Di (t) denota los dividendos acumulados pagados al
poseedor del activo i durante el intervalo (0,t].
Si Di (t) tiene la estructura,
dDi (t) = i (t)dt
para alg
un proceso i , entonces decimos que el activo i genera
rentabilidad continua por dividendos.

En este caso seguimos teniendo que V (t) = h(t)S(t), pero la


ecuacion presupuestaria cambia, ya que el dinero del que se
dispone en el tiempo t ahora esta determinado por:
I

h(t t)S(t), valor del portafolio viejo en el tiempo t.

Los dividendos generados en el intervalo (t t,t] dados por:


N

hi (t t)[Di (t) Di (t t)] = h(t t)D(t)

i=1

de forma que la ecuaci


on presupuestaria esta determinada por:
h(t t)S(t) + h(t t)D(t) = h(t)S(t) + c(t)t

De esta forma y utilizando los mismos argumentos anteriores se


tiene que la dinamica del portafolio autofinanciado para el caso
con dividendos esta determinada por:
N

dV (t) = hi (t)dSi (t) + hi (t)dDi (t) c(t)dt


i=1

i=1

Consideramos entonces las siguientes definiciones:


I

El proceso de ganancia {G(t);t 0} esta definido por:


G(t) = S(t) + D(t)

El par (h, c) se dice autofinanciado si


N

dV h (t) = hi (t)dGi (t) c(t)dt


i=1

Control optimo

Ejemplo: Consideramos una economa definida en el intervalo


[0, T ], en la cual hay un agente que en el tiempo t = 0 esta dotado
con una riqueza inicial x0 .
El problema del agente es determinar la mejor manera de
invertir y consumir en este horizonte temporal.

Las oportunidades de inversi


on para el agente son:
I

Un activo libre de riesgo B con tasa de interes constante r.


dB = rBdt

Un activo riesgoso con valor S(t), tal que:


dS = Sdt + SdW

Denotamos por ut0 a lo invertido en B en el instante t, por ut1 a lo


invertido en el activo S en el instante t y como ct a la tasa de
consumo.

Solo se consideran estrategias de inversi


on-consumo que sean
autofinanciadas, hay negociaci
on continua y no hay restriccion a
ventas en corto.
En este escenario denotamos por Xt a la riqueza del agente en el
tiempo t, y tenemos que:
dXt = Xt [ut0 r + ut1 ]dt ct dt + ut1 Xt dWt

C
omo seleccionar un estrategia (h, c) que maximice el valor
esperado de su utilidad total en el intervalo [0, T ]?

Problema de control optimo estocastico

Z
max E

u0 ,u1 ,c


F(t, ct )dt + (XT )

sujeto a:

dXt = Xt [ut0 r + ut1 ]dt ct dt + ut1 Xt dWt


X0 = x0
ct 0
ut0 + ut1 = 1

para todo t 0
para todo t 0

Definicion
En un problema de control
optimo encontramos:
I

Como evoluciona el sistema de interes. (Modelo dinamico del


sistema.)

Como se va ha controlar el sistema. (Conjunto de estrategias


admisibles).

Restricciones adicionales si son necesarias.

Una funci
on objetivo, que permite determinar la respuesta
del sistema a cada estrategia admisible.

Ejemplos:
1. (Sistema discreto)
X(t + 1) = F(X(t), u(t), (t)) ;

t = 0, 1, 2, . . . , T

con X(0) = x0 y T . Las (t) son perturbaciones que


hacen:
I
I
I

Sistema estocastico ( (t) son v.a.)


Sistema determinstico ( (t) son constantes conocidas)
Sistema incierto ( (t) son constantes desconocidas)

2. (Sistema continuo)
dX(t + 1)
= F(X(t), u(t), (t)) ;
dt

0t T

con X(0) = x0 y T .
I

Sistema estocastico
dX(t) = (t, X(t), u(t))dt + (t, X(t), u(t))dW (t)

Sistema determinstico
dX(t) = (t, X(t), u(t))dt

Estrategias admisibles
Una estrategia de control u(t) se especifica mediante restricciones,
y se considera admisible si:
I

u(t) es adaptado a X(t), e.d.,u(t, X(t)).

u(t, X(t)) es posible para todo t y todo x.

Para todo t y x la EDE,

dX(t) = (t, X(t), u(t, X(t)))dt + (t, X(t),U(t, X(t))dw(t)

con X(t) = x, tiene soluci


on u
nica.

Funcion objetivo

Para un problema determinstico en tiempo discreto, se tiene que


la forma de la funcion objetivo pude ser:
T 1

V (u, x) =

c(X(t), u(t)) +CT (X(T ))

t=0

V (u, x) = t c(X(t), u(t))


t=0

Para el problema determinstico en tiempo continuo, se tiene que:


Z T

c(X(t), u(t))dt +CT (X(T ))

V (u, x) =
0

y en el caso estocastico:
Z
V (u, x) = E
0


c(X(t), u(t))dt +CT (X(T ))

1. En un problema de control
optimo se busca optimizar V (u, x)
sobre el conjunto de estrategias admisibles u(t) U, para los
cuales el proceso de estado X(t) sigue las restricciones dadas
por el modelo dinamico y las restricciones adicionales.
2. la funcion V (u,
x) := supu(t)U V (u, x), es llamada funci
on de
valor y u es la ley de control
optimo.

Ejemplo: Retomando el problema de portafolio, se tiene que:


I

El proceso estado es la riqueza del agente X(t) con una


dinamica dX(t).

Las acciones o procesos de control del agente son: h = (ut0 , ut1 )


y ct .

La funcion objetivo es:


Z
v(u, x) = E
0

F(t, X

(t), u(t))dt + (XTu )

El Problema Formal
Tenemos las funciones:

(t, x, u) : R+ Rn Rk Rn
(t, x, u) : R+ Rn Rk Rnd

y para un punto fijo x0 Rn consideramos la ecuacion diferencial


estocastica controlada:

dXt = (t, Xt , ut )dt + (t, Xt , ut )dWt


X0 = x0

dXt = (t, Xt , ut )dt + (t, Xt , ut )dWt


X0 = x0

Tratamos de controlar el proceso de estado X seleccionando


adecuadamente el proceso de control u.

Cu
ales son las condiciones para que un proceso de control u
sea admisible?

1. El proceso ut sea adaptado al proceso de estado X, es decir, ut


depende de los valores pasados observados de X, en particular
ut (t, Xt )

luego,

dXt = (t, Xt , ut (t, Xt ))dt + (t, Xt , ut (t, Xt ))dWt


X0 = x0
2. Que el proceso ut cumpla con las restricciones de control, es
decir, si U Rk entonces ut U para todo t.

Definici
on: Un proceso de control ut es admisible si:
1. u(t, x) U para todo t y todo x.
2. Para todo punto (t, x) la E.D.E

dXs = [x, Xs , u(s, Xs )]ds + [s, Xs , u(s, Xs )]dWs


Xt = x
tiene solucion u
nica, denotada por X x,u

Funci
on objetivo del problema de control
Consideramos el par de funciones:

F : R+ Rn Rk R
: Rn R
A partir de las cuales definimos la funci
on de valor del problema,
J0 : U R, definida por:
J0 (u) = E

Z
0

F(t, Xtu , ut )dt + (XTu )

donde Xtu es el proceso que soluciona la E.D.E del proceso de


control.

En este contexto definimos el valor optimo J0 por:


J0 = sup J0 (u)
uU

si existe una ley de control admisible u,


tal que:
J0 (u)
= J0

y en este caso esta ley se dice ley de control optimo para el


problema dado.

La ecuaci
on de Hamilton-Jacobi-Bellman
Dado un problema de control
optimo las dos preguntas naturales a
contestar son:
I

Existe una ley de control


optimo?

Dado que que existe un control optimo, lo podemos


encontrar?

Para esto integramos el problema original a una clase mas


grande de problemas de control que est
an relacionados con
una ecuaci
on diferencial parcial conocida como ecuaci
on de
Hamilton-Jacobi-Bellman.

Empezamos por seleccionar un instante fijo de tiempo t en [0, T ] y


un valor x Rn del espacio de estados.
Para el par (t, x) definimos el problema de control P(t, x):
Z
max Et,x
t


F(s, Xsu , us )ds + (Xtu )

sujeto a:

dXsu = (s, Xsu , u(s, Xsu ))ds + (s, Xsu , u(s, Xsu ))dWs
Xt = x
u(s, y) U

(s, y) [t, T ] Rn .

La funci
on de valor (funci
on objetivo) de este problema es:
J : R+ Rn U R

J (t, x, u) = E

Z
t

F(s, Xsu , us )ds + (XTu )

y la funci
on de valor
optimo es:
V : R+ Rn R
V (t, x) = sup J (t, x, u)
uU

Buscamos derivar una ecuaci


on diferencial parcial para la funci
on
de valor optimo V .

Para poder derivar la EDP asociada a la funci


on V se asume que:
I

Existe un proceso de control optimo u,


lo que garantiza la
existencia de la funci
on V .

La funcion V C1,2 .

Es posible justificar los procedimientos de toma de lmites que


se aplicaran.

Deduccion de la EDP

Para (t, x) fijos en (0, T ) Rn y para un valor fijo h, se considera


una ley de control arbitraria u U, y se define:
(
u(s, y)
u (s, y) =
u(s,
y)

;
;

(s, y) [t,t + h] Rn
(s, y) (t + h, T ] Rn

Siguiendo la ley de control u estaramos utilizando un control


arbitrario u en el intervalo [t,t + h] y el control optimo u en el resto
del intervalo hasta T .

La idea de la programacion dinamica

1. Dado (t, x) se consideran las estrategias.


I. Usar el control optimo u.

II. Usar el control u .

2. Calcular la utilidad esperada bajo ambas estrategias.


3. Utilizar que la estrategia en I. es mejor que en II. y hacer que
h 0, para obtener la EDP.

Utilidades esperadas:
I

Estrategia I.
El valor esperado de la utilidad siguiendo esta estrategia es :
V (t, x) = J (t, x, u)

Estrategia II.
En este caso dividimos el intervalo (t, T ] en dos partes, de
(t,t + h) y de [t + h, T ].
El valor esperado de la utilidad en el intervalo (t,t + h) esta
dado por:
Z t+h

u
Ex,t
F(s, Xs , us )ds
t

En el segundo intervalo [t + h, T ] tenemos que el estado en el


u , y como en este intervalo
instante t + h es un estado aleatorio Xt+h
estamos siguiendo la estrategia
optima, la utilidad esperada esta
u ).
dada por V (t + h, Xt+h
Concluimos que la utilidad esperada en el intervalo [t + h, T ],
siguiendo al estrategia II, esta determinada por:
Z
Ex,t
t

t+h

u
F(s, Xsu , us )ds +V (t + h, Xt+h
)

Comparaci
on de las utilidades esperadas
Como por definici
on la estrategia I es la optima, se tiene que:
Z t+h

u
u
V (t, x) Ex,t
F(s, Xs , us )ds +V (t + h, Xt+h )
t

Aplicando la formula de It
o se tiene que:

s
V (t + h, Xt+h
) = V (t, x)


Z t+h
V
V
1 2V
u
u
u
0
u
+
(s, Xs )u u ds
(s, Xs ) +
(s, Xs )(s, Xs , us ) +
t
x
2 x2
t
Z t+h
V
(s, Xsu )u dWs
+

x
t

Si definimos el operador:
Au = (t, x)

1
2
+ u u0 2
x 2
x

entonces,

s
V (t + h, Xt+h
) = V (t, x)


Z t+h
Z t+h
V
V
u
u
u
(s, Xs ) + A V (s, Xs ) ds +
(s, Xsu )u dWs
+
t
x
t
t

y al tomar valor esperado dados (t, x) se tiene que:

s
Et,x [V (t +h, Xt+h
)] = V (t, x)+Et,x

Z
t

t+h

 
V
u
u
u
(s, Xs ) + A V (s, Xs ) ds
t

Entonces al considerar de nuevo la desigualdad,


V (t, x) Ex,t

Z
t

t+h

u
F(s, Xsu , us )ds +V (t + h, Xt+h
)

se tiene que,
Z
Ex,t
t

t+h

F(s, Xsu , us ) +


V
u
u
u
(s, Xs ) + A V (s, Xs ) ds 0
t

Tomando lmite

Multiplicando y dividiendo por h haciendo que h 0, se tiene que:


F(t, x, u) +

V
(t, x) + AuV (t, x) 0
t

y podemos ver que la igualdad se tiene solo si u = u,


luego
V
(t, x) + sup{F(t, x, u) + AuV (t, x)} = 0
t
uU
ecuacion que consideramos con la condici
on de frontera
V (T, x) = (x) para todo x.

Ecuaci
on HJB

Bajo los supuestos anteriores se tiene que:


1. V satisface la ecuaci
on de Hamilton-Jacobi- Bellman
V
(t, x) + sup{F(t, x, u) + AuV (t, x)} = 0
t
uU

(t, x) (0, T ) Rn

V (T, x) = (x) x Rn
2. Para cada (t, x) (0, T ) Rn el supremo de la ecuacion HJB
es alcanzado por u = u(t,
x).

Nota:

Es importante notar que aunque el resultado anterior esta


expresado en forma de condici
on necesaria, la ecuacion HJB
tambien act
ua en forma de condici
on suficiente, es decir, si V
satisface la ecuacion HJB entonces V es el supremo de la funcion
de valor y u es un control optimo.

Tenemos entonces la ecuaci


on HJB:
V
(t, x) + sup{F(t, x, u) + AuV (t, x)} = 0
t
uU
V (T, x) = (x)
1. La consideramos como una ecuaci
on diferencia parcial de la
funcion V .
2. Para (t, x) [0, T ] Rn fijo, resolvemos el problema:
max{F(t, x, u) + AuV (t, x)}
uU

3. Si u es el optimo entonces:
V
(t, x) + F u (t, x) + AuV (t, x) = 0
t
V (T, x) = (x)
4. Resolver!!

El problema original
Retomando el problema del agente tenemos que:
Z
max E

u0 ,u1 ,c


F(t, ct )dt + (XT )

sujeto a:

dXt = Xt [ut0 r + ut1 ]dt ct dt + ut1 Xt dWt


X0 = x0
ct 0
ut0 + ut1 = 1

para todo t 0
para todo t 0

Que sucede en el problema anterior si = 0 y la funcion F


es una funcion creciente y no acotada en la variable c?
Problema degenerado que no tiene soluci
on optima.

Con alta probabilidad el proceso de riqueza tomara


valores negativos, lo cual no esta prohibido por las
restricciones de control.

Una forma de resolver lo anterior es considerar un domino de la


forma D = [0, T ] {x|x > 0}, que se incorpora en el problema
utilizando el tiempo de parada
= inf{t > 0|Xt = 0} T

con lo cual la funcion objetivo del problema sera:


Z
E
0

F(t, ct )dt

Si en el problema definimos una nueva variable de control w como


wt = ut1 y 1 wt = ut0 , se tendra que:

dXt = Xt [(1 wt )r + wt ]dt ct dt + wt Xt dWt


= wt [ r]Xt dt + (rXt ct )dt + wt Xt dWt

y la ecuacion HJB del problema es:

V
V
+ sup [F(t, ct ) + w( r)x
t c0,wR
x
+ (rx c)
con V (T, x) = 0 y V (t, 0) = 0.

V 1 2 2 2 2V
+ x w
]=0
x 2
x2

Ejemplo:
Sea F(t, c) = et c , con 0 < < 1, entonces:

sup [F(t, ct ) + w( r)x


c0,wR

sup [et c + w( r)x


c0,wR

V 1 2 2 2 2V
V
+ (rx c)
+ x w
]
x
x 2
x2

V 1 2 2 2 2V
V
+ (rx c)
+ x w
]
x
x 2
x2

sup [et c + w( r)x


c0,wR

V
V 1 2 2 2 2V
+ (rx c)
+ x w
]
x
x 2
x2

Las condiciones de primer orden para ese problema de optimizacion


estatica son:
I

c1 et

V
=0
x

(A)

w=

V / x ( r)
x 2V / x2 2

(B)

Si en este contexto consideramos que V (t, x) = et h(t)x donde


h(T ) = 0 para cumplir con las condiciones, tenemos que:
V
= et h0 (t)x et h(t)x
t

V
= et h(t)x1
x

2V
= ( 1)et h(t)x2
x2
y reemplazando en las ecuaciones (A) y (B) tenemos:
w =

r
(1 ) 2

c = xh(t)1/1

Retomando la ecuacion de HJB tenemos que:

V
V
+ sup [F(t, ct ) + w( r)x
t c0,wR
x
+ (rx c)

V 1 2 2 2 2V
+ x w
]=0
x 2
x2

n
o
x h0 (t) + Ah(t) Bh(t)/(1) = 0

h(T ) = 0

1 ( r)2
( r)2
+
r

(1 ) 2
2 (1 ) 2

B = 1

donde,
A=

Teorema de separaci
on de fondos
Caso sin activo libre de riesgo

Consideramos un mercado financiero compuesto por n activos


riesgosos (S1 , .., Sn ), donde se asume que el vector de precio
S(t) sigue la dinamica:
dS = D(S)dt + D(S) dW
donde es un vector, una matriz y D(S) = diag[S1 , ..., Sn ],
luego
dSi = Si i dt + Si i dW

Consideramos tambien el proceso de portafolio autofinanciado


dX = Xw0 dt cdt Xw0 dW

Una funcion de utilidad instantanea F(t, ct ), tal que buscamos


maximizar:
Z T

E
F(t, ct )dt
0

sujeto a la dinamica del proceso de riqueza (Xt ) y a las


restricciones: i wi = 1 y c 0

La ecuacion HJB del problema es:


V
+ sup {F(t, c) + Aw,cV (t, x, s)} = 0
t w,c0
V (T, x, s) = 0
V (t, 0, s) = 0

con,
Aw,cV (t, x, s) = xw0

V
V 1 2 0 2V
c
+ x w w 2
x
x 2
x

Si suponemos que y son constantes y que es de rango


completo (luego es invertible), se tiene que el problema de
optimizacion estatica puede plantearse en terminos del
Lagrangiano:
1
L = F(t, c) + (xw0 c)Vx + x2 w0 wVxx + (1 w0 e)
2

y de las condiciones de primer orden:


I F
c

= Vx .

x 0Vx + x2Vxx w0 = e0

x2Vxx +xVx e0 1
e0 1 e

x
w = 1 [ x2Vxx e xxV
2V ]
xx

Reemplazando este valor de en la ecuaci


on del w,
se tiene que:


1
Vx 1 e0 1
1
w = 0 1 e +
e

e
xVxx
e0 1 e
|e {z
} |{z}
|
{z
}
g

Y (t)

w = g +Y (t)h

Trabajo en clase

Resuelva el problema de minimizar:



Z
E exp

ut2 dt + XT2

dado que dX = (ax + u)dt + dW .


Sugerencia: Tome V (t, x) = eA(t)x

2 +B(t)



You might also like