Ir para o conteúdo

CCT-UFCA/Ciência da Computação/Introdução à Teoria dos Jogos/Melhor resposta, estratégias dominantes e equilíbrio de nash puro

De Wikiversidade

Analisando jogos

[editar | editar código]

No contexto de análise de um jogo, objetiva-se sempre a busca de uma estratégia ótima, ou seja, que maximize a função de utilidade de um agente, isso é consideravelmente aplicado em um cenário onde existe apenas um agente com preferências entre estados do mundo, contudo, em um contexto onde há múltiplos agentes essa noção de estratégia ótima se perde, uma vez  que todos os agentes buscam a maximização de sua utilidade que é influenciada diretamente pela sua própria escolha e dos demais, nesse contexto a teoria dos jogos foca-se no encontro de conceitos de solução, que são subconjuntos de resultados com características únicas e interessantes.

Melhor resposta

[editar | editar código]

Formalmente falando, temos que para , um perfil de ações sem a ação do jogador , tem que sua melhor resposta é a ação pertencente ao conjunto de ações disponíveis do jogador , tal que , ou seja, o perfil de ações contendo e as ações dos demais jogadores, é maior ou igual a todas as possíveis ações restantes disponíveis para o jogador , e as ações jogadas pelos demais jogadores.

Intuitivamente falando temos que a melhor resposta é a escolha de uma ação que maximize o ganho de um jogador dado que ele saiba o que os outros jogadores escolheram. Considerando novamente a instância do jogo do dilema do prisioneiro apresentado abaixo:

Temos que, caso o jogador 2 escolha , a melhor resposta para o jogador 1 será , pois . Caso o jogador 2 escolha , a melhor resposta para o jogador 1 também será pois .

Da mesma forma, caso o jogador 1 escolha , a melhor resposta para o jogador 2 será , pois . Caso o jogador 1 escolha D, a melhor resposta para o jogador 2 ainda será D, pois -3>-4.

Estratégias dominantes

[editar | editar código]

Estratégias dominantes são ações que são sempre a melhor resposta para um jogador independente da escolha dos outros, ou seja, ações que o jogador pode escolher sempre sem preocupações.

Dizemos que uma estratégia estritamente domina outra estratégia , se para qualquer escolha dos oponentes o payoff de é sempre maior que o de , ou seja, o jogador sempre a escolherá pois é a melhor entre todas as outras opções para qualquer um dos cenários possíveis.

Dizemos que uma estratégia fracamente domina outra estratégia , se para qualquer escolha dos oponentes o payoff de é sempre igual ou em pelo menos em um caso melhor ao payoff de , ou seja, o jogador irá preferir escolher a mesma mas há situações em que o seu payoff será igual caso tivesse adotado outra estratégia.

Considere o jogo abaixo onde analisaremos o contexto de estratégias dominantes de ambos os jogadores:

analisando o jogador 1:

  • se o jogador 2 escolher , o jogador 1 irá ganhar 3 caso escolha , ou 4 caso escolha ; ()
  • se o jogador 2 escolher , o jogador 1 irá ganhar 2 caso escolha , ou 2 caso escolha ; (

Portanto, temos que a escolha fracamente domina , pois garante que independente da escolha do oponente o jogador 1 tenha payoff igual ou uma vez maior que sua outra estratégia disponível.

analisando o jogador 2:

  • se o jogador 1 escolher , o jogador 2 irá ganhar 2 caso escolha , ou 1 caso escolha ; (
  • se o jogador 1 escolher , o jogador 2 irá ganhar 3 caso escolha , ou 2 caso escolha ; (

Portanto, temos que a escolha estritamente domina , pois independente da escolha do oponente essa estratégia sempre garantirá payoff maior.

Equilíbrio de nash puro

[editar | editar código]

Um equilíbrio de nash puro se dá quando para dado perfil de ações , todos os jogadores têm que suas ações são a melhor resposta para o perfil de ação .

Intuitivamente falando o equilíbrio de nash se baseia no conceito de melhor resposta, ou seja, consiste em um perfil de ações onde todos os jogadores, cientes das escolhas de todos, escolhem suas melhores ações simultaneamente, de modo que nenhum jogador consiga melhorar sua utilidade mudando de ação sozinho.

Exemplo 1: considere a instância do dilema do prisioneiro abaixo:

Note que independente do cenário de escolha dos jogadores, a melhor resposta dos mesmos será sempre , analisando o perfil de ação onde ambos escolhem , , com utilidade , temos que será o equilíbrio de nash puro, pois nenhum jogador consegue melhorar sua utilidade mudando de ação sozinho, uma vez que se o jogador 1 mudar para ganhará -4 que é menor que -3, e se o jogador 2 mudar para ganhará -4 que é menor que -3.

Exemplo 2: considere a seguinte instância do jogo abaixo:

Analisando os cenários em busca da melhor resposta, temos que:

para o jogador 1:

  • caso o jogador 2 escolha , sua melhor resposta será , pois 1>0;
  • caso o jogador 2 escolha , sua melhor resposta será , pois 1>0.

Para o jogador 2:

  • caso o jogador 1 escolha , sua melhor resposta será , pois 1>0;
  • caso o jogador 1 escolha , sua melhor resposta será , pois 1>0.

Note que independente da escolha de um dos jogadores o outro sempre escolherá o mesmo, portanto, temos dois perfis de ações que são equilíbrios de nash puros, são eles o caso em que ambos os jogadores escolhem , e o caso em que ambos escolhem , isso se deve ao fato de que nenhum jogador conseguirá melhorar sua utilidade modificando unicamente sua resposta sozinho, uma vez que para os dois perfis de ações, independente da resposta do adversário e da mudança de resposta de um dos jogadores, o mesmo sempre passará a ganhar 0 que é menor que sua utilidade atual.