You are on page 1of 51

JOGOS DINMICOS COM INFORMAO PERFEITA

Jogos dinmicos so aqueles em que os movimentos (ou tomadas de deciso) dos


jogadores se sucedem em determinada ordem. Exemplo: no jogo de xadrez o jogador
das peas brancas inicia a partida com um movimento e sucedido por um movimento
do jogador de peas pretas, em seguida o jogo continua com um novo movimento do
jogador de peas brancas e assim por diante at que se estabelea uma vitria ou um
empate.
Em jogos dinmicos estratgias e movimentos no necessariamente se confundiro
como nos jogos estticos. Assim, seguiremos a conveno de escrever uma estratgia
em itlico com a primeira letra em maisculo e uma tomada de deciso em itlico com
a primeira letra em minsculo.
A apresentao de um jogo dinmico ocorre pelo uso de rvores de Jogo. Uma rvore
de jogo uma representao composta de ns e ramos. Um n de deciso um ponto

de deciso de um jogador e, assim, cada n de deciso pertence a um nico jogador.


O ramo a ligao entre dois ns.

movimento
de A

movimento de B

Jogador B

Jogador A

ramo

ramo
n terminal

n inicial ou
n raiz
Um n que no terminal um n de deciso.

Uma rvore de jogos possui uma orientao que definida pelas setas dos ramos.
Nesse caso a orientao da esquerda para a direita. Tambm so comuns
orientaes de cima para baixo, mas nada impede uma orientao da esquerda para a
direita ou de baixo para cima. O importante manter a clareza na apresentao.
Um caminho uma sucesso possvel de ns e ramos.
Regras para a construo de rvores de jogos
Regra 1: todo n precedido por, no mximo, outro n.
O nico n que no precedido por outro o n inicial ou raiz.
Regra 2: nenhum caminho em uma rvore liga um n de deciso a si mesmo.
Regra 3: todo n sucessor de um nico n inicial.
Regra 4: toda rvore de jogo tem exatamente um n inicial (o n raiz).

Todo jogo pode ser representado na forma de uma rvore de jogo, mesmo um jogo
simultneo. Isso demanda uma definio da informao em um jogo.
Um jogador possui informao perfeita se ele sempre souber onde ele se localiza na
rvore de jogo quando for fazer o seu movimento. Exemplos: um jogador de xadrez
possui o histrico completo das movimentaes e da ordem destas, portanto, possui
informao perfeita; em um jogo de duoplio de Cournot cada jogador faz o seu
movimento sem saber do movimento do outro, portanto, cada empresa possui
informao imperfeita.
Um jogo ser de informao perfeita sempre que todos os jogadores possurem
informao perfeita. Um jogo ser de informao imperfeita se ao menos um dos
jogadores possuir informao imperfeita.

coopera

Empresa B
coopera

no coopera

Empresa A
coopera

no coopera

Empresa B
no coopera

coopera

Empresa B
coopera

no coopera

Empresa A
coopera

no coopera

Empresa B
no coopera

Exemplo: A Microsoft desenvolveu um jogo e deve escolher o tipo de campanha


publicitria que ir utilizar. Se escolher Elegante ir contratar uma grande empresa de
publicidade e realizar muitas vendas no primeiro ano e poucas no segundo, porque o
mercado se satura em um prazo de dois anos. Se escolher Simples o lanamento ser
apenas atravs dos meios tradicionais da empresa (site da empresa, anncio oficial
imprensa especializada e redes sociais), as vendas no primeiro ano sero menores,
mas o efeito boca a boca levar a grandes vendas no segundo ano de modo que o
mercado se satura tambm no segundo ano. Os resultados so apresentados na
tabela abaixo.

Lucros da Microsoft se no h concorrncia


Elegante

Simples

Lucro bruto no ano 1

$900000

$200000

Lucro bruto no ano 2

$100000

$800000

Lucro bruto total

$1000000 $1000000

Custo da propaganda - $570000 - $200000


Lucro lquido total

$430000

$800000

Caso no haja concorrncia o comportamento maximizador levar a Microsoft a optar


pela estratgia Simples. Porm, existe uma empresa, a Micorcorp, capaz de fazer um
clone legal (uma verso similar do jogo, mas legal, pois possui cdigo fonte prprio) um
ano aps o lanamento do jogo pela Microsoft a um custo de $300000. O clone

considerado substituto perfeito pelos consumidores de modo que no possvel uma


diferenciao no mercado.
Lucros da Microsoft se a Microcorp oferta o clone no segundo ano
Elegante

Simples

Lucro bruto no ano 1

$900000

$200000

Lucro bruto no ano 2

$50000

$400000

Lucro bruto total

$950000

$600000

Custo da propaganda

- $570000

- $200000

Lucro lquido total

$380000

$400000

Lucros da Microcorp se a Microcorp oferta o clone no segundo ano


Microsoft escolhe Elegante Microsoft escolhe Simples
Lucro bruto no ano 1

$0

$0

Lucro bruto no ano 2

$50000

$400000

Lucro bruto total

$50000

$400000

Custo da propaganda

- $300000

- $ 300000

Lucro lquido total

- $250000

$100000

entrar

($380000, - $250000)

Microcorp
elegante

ficar
fora

($430000, $0)

Microsoft
simples

entrar

($400000, $100000)

ficar
fora

($800000, $0)

Microcorp

As estratgias da Microsoft so Elegante e Simples. As estratgias da Microcorp so


(entrar, entrar), (entrar, ficar fora), (ficar fora, entrar) e (ficar fora, ficar fora).

Lembre-se que uma estratgia um conjunto detalhado (completo) de planos para um


jogador. Como a Microsoft faz um nico e inicial movimento, o seu movimento se
confunde com a estratgia. J a Microcorp deve incorporar os dois possveis
movimentos da Microsoft em suas estratgias. Por exemplo, a estratgia (entrar, ficar
fora) da Microcorp deve ser entendida da seguinte maneira: escolher o movimento
entrar se a Microsoft escolheu Elegante e escolher o movimento ficar fora se a
Microsoft escolheu Simples. Os possveis perfis de estratgias desse jogo so:
{Elegante, (entrar, entrar)}
{Elegante, (entrar, ficar fora)}
{Elegante, (ficar fora, entrar)}
{Elegante, (ficar fora, ficar fora)}
{Simples, (entrar, entrar)}

{Simples, (entrar, ficar fora)}


{Simples, (ficar fora, entrar)}
{Simples, (ficar fora, ficar fora)}
Uma estratgia especifica o movimento em cada um dos ns de deciso do jogador.
Como Microsoft possui apenas um n de deciso a sua estratgia possui apenas uma
tomada de deciso. J a Microcorp que possui dois ns tem que especificar a sua
estratgia com dois movimentos.

O que ocorreria se ignorssemos a dinmica do jogo?


Macrosoft
Elegante
Microcorp

entrar
ficar fora

Simples

-250000, $380000 *$100000, $400000*


*$0, $430000

$0, 800000*

Nesse caso seramos levados a pensar que existe um nico equilbrio de Nash nesse
jogo e que, portanto, o resultado racional est univocamente determinado.

Se considerarmos a dinmica do jogo:


Macrosoft
Elegante
(entrar, entrar)
Microcorp

Simples

-$250000, $380000 *$100000, $400000*

(entrar, ficar fora)

- $250000, $380000

$0, $800000*

(ficar fora, entrar)

*$0, $430000*

*$100000, $400000

(ficar fora, ficar fora)

*$0, $430000

$0, $800000*

nesse caso temos dois equilbrios de Nash, dois possveis resultados que so
racionais. H alguma forma de determinar qual ser o escolhido?
No h na teoria dos jogos nenhum conceito de soluo entre dois ou mais equilbrios
de Nash com a mesma aceitao virtualmente universal que o equilbrio de Nash

possui. O equilbrio de Nash evidencia uma situao que racional segundo a teoria
da tomada de deciso e a racionalidade um fenmeno que pode ocorrer em mais de
uma situao. Situaes onde no ocorre racionalidade podem ser oriundas no
apenas de dificuldade de processamento e computao dos dados (em problemas
extensos ou complicados) e de violaes dos pressupostos de racionalidade (como
aes instintivas, por exemplo), um resultado no racional pode ocorrer por azar e isso
nenhuma racionalidade pode evitar. Em jogos dinmicos como o apresentado, porm,
existem alguns procedimentos para tentar simplificar o jogo e evidenciar um equilbrio
em particular. Tomemos o caso da induo retroativa ou induo reversa.
Siga o seguinte algoritmo:
1) Comece pelos ns terminais do jogo e trace o caminho de cada um at o seu n
predecessor imediato, que ser um n de deciso de algum jogador. Esses ns de
deciso podem ser triviais no bsicos, triviais bsicos ou complexos. Um n

bsico aquele em que cada um dos ramos leva a exatamente um n terminal.


Um n bsico com apenas um ramo trivial e o n que no bsico complexo.
Se voc alcanar um n de deciso trivial, continue a subir a rvore at alcanar
um n de deciso complexo ou um bsico no trivial ou no poder mais seguir
adiante.
2) Determine o movimento timo em cada n de deciso bsico alcanado na etapa
1 comparando as recompensas que o jogador obtm em cada n terminal
alcanado a partir desse n de deciso. Observe que cada caminho entre um n
de deciso bsico A e um n terminal B comea em um nico ramo de A. O ramo
que leva recompensa mais alta para o jogador o movimento timo a fazer
naquele n.
3) Apague todos os ramos no timos que se originaram de cada um dos ns de
deciso bsicos que voc examinou na etapa 2. Cada um deles torna-se trivial.

4) Agora voc tem uma rvore de jogo mais simples do que a original. Se na etapa 1
voc chegou raiz da rvore, ento o seu trabalho acabou.
5) Se voc ainda no chegou raiz, volte etapa 1 e comece tudo de novo. Desse
modo voc avana etapa por etapa em direo raiz.
6) Para cada jogador, rena as decises timas em cada um dos ns de deciso
dele. Essa coleo de decises constitui a estratgia tima desse jogador para o
jogo.

TEOREMA: em um jogo com informao perfeita, o perfil de estratgias


selecionado pelo processo de induo retroativa sempre um equilbrio de Nash.

n bsico trivial
jogador X

n bsico no trivial

jogador X

n complexo

jogador X

jogador Y

n de deciso bsico
no trivial

entrar

($380000, - $250000)

Microcorp
elegante

ficar
fora

($430000, $0)

Microsoft
simples

entrar

($400000, $100000)

ficar
fora

($800000, $0)

Microcorp

n de deciso bsico
no trivial

entrar

($380000, - $250000)

Microcorp
elegante

ficar
fora

($430000, $0)

Microsoft
simples

entrar

($400000, $100000)

ficar
fora

($800000, $0)

Microcorp

n bsico trivial
n bsico no
trivial

Microcorp
elegante

ficar
fora

($430000, $0)

Microsoft
simples

entrar
Microcorp

n bsico trivial

($400000, $100000)

Microcorp
elegante

ficar
fora

($430000, $0)

Microsoft
simples

entrar

Microcorp

Microsoft

elegante

($400000, $100000)

ficar
fora
Microcorp

($430000, $0)

entrar

($380000, - $250000)

Microcorp
elegante

ficar
fora

($430000, $0)

Microsoft
simples

entrar

($400000, $100000)

ficar
fora

($800000, $0)

Microcorp

Relembrando a matriz de recompensas:


Macrosoft
Elegante
(entrar, entrar)
Microcorp

Simples

-$250000, $380000 *$100000, $400000*

(entrar, ficar fora)

- $250000, $380000

$0, $800000*

(ficar fora, entrar)

*$0, $430000*

*$100000, $400000

(ficar fora, ficar fora)

*$0, $430000

$0, $800000*

ns temos que o perfil de estratgias que representa a escolha tima {Elegante,


(ficar fora, entrar)}

acima

rpido

(10, 100)

jogador B
abaixo

(12, 200)

jogador A
acima
devagar

(10, 200)

jogador B
abaixo

jogador A

frear

acelerar

(15, 25)
(0, 50)

acima

rpido

(10, 100)

jogador B
abaixo

(12, 200)

jogador A
acima
devagar

(10, 200)

jogador B
abaixo

jogador A

frear

(15, 25)

rpido

jogador B
abaixo

(12, 200)

jogador A
acima
devagar

rpido

jogador B

jogador B
abaixo

jogador A

(10, 200)

(12, 200)

As estratgias do jogador A so (uma tomada de deciso para cada n de


deciso):
(rpido, acelerar); (rpido, frear); (devagar, acelerar); (devagar, frear).

As estratgias do jogador B so (uma tomada de deciso para cada n de


deciso):
(acima, acima); (acima, abaixo); (abaixo, acima); (abaixo, abaixo).
A matriz de resultados dada por:
Jogador B

Jogador A

(acima, acima) (acima, abaixo) (abaixo, acima) (abaixo, abaixo)


(rpido, acelerar)

*10, 100

10, 100

*12, 200*

12, 200*

(rpido, frear)

*10, 100

10, 100

[*12, 200*]

12, 200*

(devagar, acelerar)

*10, 200*

0, 50

10, 200*

0, 50

(devagar, frear)

*10, 200*

0,50

10, 200*

0, 50

Ameaas:
Jogadores podem tentar influenciar o comportamento do jogador que antecede a
as tomada de deciso atravs de uma ameaa. Uma ameaa pode ser crvel ou
ser uma conversa fiada.
Uma ameaa crvel existe somente se for do interesse do prprio jogador levar a
cabo a ameaa dada a opo. Ameaas que no so crveis (conversa fiada) so
ignoradas por todos os jogadores racionais.
Outra forma de ameaa a ameaa vinculadora. Nesse caso uma vez feita a
ameaa no possvel voltar atrs, como em um contrato, por exemplo.

(-250, 380)
Microsoft

(100, 400)
(-250, 380)
Microsoft

(0, 800)

Microcorp

(0, 430)
Microsoft
(100, 400)
(0, 430)
Microsoft
(0, 800)

(-250, 380)
Microsoft

(100, 400)
(-250, 380)
Microsoft

(0, 800)

Microcorp

(0, 430)
Microsoft
(100, 400)
(0, 430)
Microsoft
(0, 800)

Microsoft

Microsoft

simples

simples

(100, 400)

(0, 800)

Microcorp
Microsoft

Microsoft

elegante

simples

(0, 430)

(0, 800)

Microsoft

Microsoft

simples

simples

(100, 400)

(0, 800)

Microcorp
Microsoft

Microsoft

Microcorp

entrar, entrar

Microsoft

elegante

simples

simples

(0, 430)

(0, 800)

(100, 400)

Note que o resultado era diferente quando a Micorsoft era a primeira a se mover:
Macrosoft
Elegante
(entrar, entrar)
Microcorp

Simples

-$250000, $380000 *$100000, $400000*

(entrar, ficar fora)

- $250000, $380000

$0, $800000*

(ficar fora, entrar)

*$0, $430000*

*$100000, $400000

(ficar fora, ficar fora)

*$0, $430000

$0, $800000*

O novo resultado, do perfil de estratgias {(entrar, entrar), (simples, simples,


elegante, simples)} melhor para a Microcorp do que o original, neste caso
dizemos que existe uma vantagem do primeiro a se mover.

Subjogos e equilbrio perfeito de subjogos


Subjogo:
1)

tem os mesmo jogadores que


nenhum movimento em

2) O n inicial de

, embora alguns deles possam no fazer

uma sub-raiz de

e a rvore do jogo de

composta por

essa sub-raiz, todos os seus ns sucessores e os ramos entre eles;


3) As recompensas de cada jogador nos ns terminais de
em

nos mesmo ns terminais.

so idnticas quelas

Subjogo que
comea na
sub-raiz D2
entrar

($380000, - $250000)

D2
Microcorp
elegante

ficar
fora

D1

($430000, $0)

Microsoft
simples

D3

entrar

($400000, $100000)

ficar
fora

($800000, $0)

Microcorp

Definio: um perfil de estratgia um equilbrio perfeito em subjogos de um


jogo, G, se esse perfil de estratgias for tambm um equilbrio de Nash para
todo subjogo prprio de G.

Teorema: um perfil de estratgias um equilbrio perfeito em subjogos de um


jogo dinmico, G, com informao perfeita, se e somente se for um equilbrio de
Nash se lecionado pelo processo de induo retroativa.

Exemplo: Jogo de Software II

D1
Microsoft

D2

D3
Microcorp

Microcorp

D4

D5

Microsoft

(400, 0)
compartilhar

Microsoft

(500, 0)
compartilhar

combater

combater

(170, -50)

(150, 50)

(250, 150)

(230, 90)

Estratgias para a Microcorp (uma tomada de deciso para cada um de seus


ns de deciso)
(entrar, entrar), (entrar, ficar fora), (ficar fora, entrar), (ficar fora, ficar fora).

Estratgias para a Macrosoft (uma tomada de deciso para cada um de seus


ns de deciso)
(quarentena, combater, combater), (quarentena, compartilhar, combater), (sem
restrio, combater, combater), (sem restrio, combater, compartilhar),
(quarentena, combater, compartilhar), (quarentena, compartilhar, compartilhar),
(sem restrio, compartilhar, combater), (sem restrio, compartilhar,
compartilhar)

D1
Microsoft

D2

D3
Microcorp

Microcorp

D4

D5

Microsoft

(400, 0)
compartilhar

Microsoft

(500, 0)
compartilhar

combater

combater

(170, -50)

(150, 50)

(250, 150)

(230, 90)

D1
Microsoft

D2

D3
Microcorp

Microcorp

D4

D5

Microsoft

(400, 0)
compartilhar

Microsoft

(500, 0)
compartilhar

combater

combater

(170, -50)

(150, 50)

(250, 150)

(230, 90)

D1
Microsoft

D2

D3
Microcorp

Microcorp

D4

D5

Microsoft

(400, 0)
compartilhar

Microsoft

(500, 0)
compartilhar

combater

combater

(170, -50)

(150, 50)

(250, 150)

(230, 90)

D1
Microsoft

D2

D3
Microcorp

Microcorp

D4

D5

Microsoft

(400, 0)
compartilhar

Microsoft

(500, 0)
compartilhar

combater

combater

(170, -50)

(150, 50)

(250, 150)

(230, 90)

D1
Microsoft

D2

D3
Microcorp

Microcorp

D4
Microsoft

D5

(400, 0)

Microsoft

(500, 0)
compartilhar

combater

(170, -50)

(250, 150)

D1
Microsoft

D2

D3
Microcorp

Microcorp

D5

Microsoft

(400, 0)
compartilhar

(250, 150)

D1
Microsoft

D2
Microcorp

(400, 0)
O perfil de estratgias para esse equilbrio {(quarentena, combater,
compartilhar), (ficar fora, entrar)}

Duoplio de Stackelberg
O que aconteceria se um duoplio de Cournot fosse modificado de modo que ao
invs de considerarmos que as duas empresas tomam a deciso de quanto
produzir ao mesmo tempo uma das empresas decidisse antes. Podemos
modelar esta situao como um jogo sequencial, mas esta estrutura de
mercados foi proposta antes da gnese da teoria dos jogos por Stackelberg em
1934.
Vejamos um exemplo com a linguagem da teoria dos jogos:
Temos duas empresas que ofertam um produto homogneo, garrafas de gua
mineral sem gs de 500 ml. A empresa SW possui uma gerncia mais eficiente
de modo que ela consegue determinar antes a quantidade a produzir. SW
chamada de empresa lder. A empresa CW a empresa seguidora e toma a sua
deciso de quanto produzir observando a tomada de deciso de SW.
A funo de demanda inversa dada por:

A estrutura de custos a mesma para as duas empresas:


.
Portanto, a funo lucro para cada firma ser:

Note que no importa a produo da outra firma, produzir uma quantidade


acima de 7 uma estratgia estritamente dominada por no produzir nada, pois
produzir acima de 7 sempre gera prejuzos.

A racionalizao de Stackelberg a seguinte. A empresa seguidora maximizar


o seu lucro observando a quantidade que a empresa lder escolher ofertar,
portanto,

, em equilbrio de Nash

Se o nvel de produo positivo:

Essa funo de melhor resposta a estratgias de CW, ela informa todas as suas
tomadas de deciso para todos as tomadas de deciso de SW (lembrando sempre que
zero domina estritamente quantidades negativas e acima de 7).
SW toma a sua deciso considerando a estratgia tima de CW (por induo
retroativa).

You might also like