Com a humilhante derrota sofrida por quatro profissionais high stakes por um robô, uma velha pergunta voltou a assombrar o mundo do poker: os robôs dominarão o poker online? O No-Limit Texas Hold'em se tornará um jogo resolvido por um algoritmo? E quanto às outras formas de poker? O GTO (Game Theory Optimal) é uma realidade?
Em 2015, a Card Player Brasil publicou uma matéria de Erik Fast bem esclarecedora sobre o assunto. Confira!
“No poker, Game Theory Optimal, basicamente, consiste em desenvolver uma estratégia que tenha o máximo de EV (Valor Esperado) quando seu oponente sempre aplica a contra-estratégia perfeita”.
Estudar o poker não é mais algo restrito a frequentadores de cassinos e clubes de poker ou a profissionais da internet. Nos últimos anos, as notícias sobre pesquisadores que vêm desenvolvendo programas para solucionar o poker estão cada vez mais presentes nas manchetes de sites especializados de todo o mundo.
Programadores gabaritados estão criando supercomputadores que jogam bilhões de mãos por segundo. O foco é estudar jogos com informações incompletas, o que pode ter grande impacto no uso da inteligência artificial (AI) para resolver problemas, de outras áreas, ainda mais complexos.
Desde que o computador Deep Blue derrotou o Grão-Mestre de xadrez Garry Kasparov, em 1997, muitos têm imaginado quando uma máquina poderia fazer o mesmo no poker. Neste ano, um artigo publicado pelo Grupo de Programação de Pesquisa de Poker da Universidade de Alberta (University of Alberta Computer Poker Research Group — UACPRG), no Canadá, no site Science, intitulado de Heads-up Limit Hold’em Poker is Solved (Heads-up Limit Hold’em está Solucionado) mostra que essa realidade está mais próxima do que o esperado.
O que esses avanços significam para os jogadores de poker? Como isso irá mudar o jogo? O processo de aprendizagem do poker será revisto? Eventualmente, os outros formatos também serão resolvidos?
Heads-up No-Limit Hold'em está solucionado
Mas o que significa o título desse artigo?
Neil Burch, estudante PhD da Universidade de Alberta, membro do UACPRG, e coautor do artigo no Science, falou à Card Player: “Solucionar um jogo quer dizer que achamos o equilíbrio de Nash: estratégias que maximizam nossas vitórias contra alguém. É uma estratégia fixa, então não varia de oponente para oponente, mas é uma estratégia fixa muito especial”.
Efetivamente isso significa que eles acharam um teorema estratégico perfeito que deixará o programa break even ou lucrativo depois de uma amostra considerável de mãos. Ou seja, não importa qual estratégia seu oponente use, ele será derrotado pela estratégia ótima do computador. No caso de ambos utilizarem o mesmo sistema, ambos ficaram no zero a zero.
O robô ganhou o nome de “Cepheus”. Ele cria uma base de dados própria que procura sempre a decisão perfeita para cada situação.
“Heads-up Limit Hold’em Poker is Solved”, continua Burch, “porque Cepheus está perto o suficiente do equilíbrio de Nash. Nós podemos medir quão bom ele é porque, mesmo que você seja o jogador perfeito e conheça a estratégia de Cepheus, no longo prazo, você ganhará perto de 0,001 big blind por mão jogando contra ele. Como sabemos que isso é suficientemente baixo? Porque uma única mão de poker é extremamente complexa — algumas mãos deveriam envolver ganhos grandes; outras, perdas pequenas. A vida humana não é longa o bastante para você diferenciar 0,001 big blind do jogo perfeito. Robôs anteriores não tinham essa garantia contra um oponente perfeito. Quero dizer, eles podiam ser bons o bastante para vencer humanos e saírem no zero a zero contra outros robôs, mas sempre ficava a possibilidade de ganhar muito mais, pois o jogo não era perfeito”.
Para criar o Cepheus o time do UACPRG usou 200 computadores. Foram 70 dias direto funcionando para criar uma base de dados com mais de 11 terabytes. Quando o programa estava diante de uma decisão, ele rapidamente acessava cada byte da base de dados para achar qual a solução mais eficaz. Ele não se ajusta a cada oponente individualmente, mas faz uso de uma abordagem inexplorável, não importando qual estratégia o oponente adote.
Mas por que a ciência dedicou mais de uma década para solucionar, em particular, o heads-up limit hold’em?
Programadores vêm testando suas criações contra humanos há tempos, mas o poker é um jogo diferente do xadrez de muitas maneiras. A diferença mais clara é: o poker é um jogo de informações incompletas ou imperfeitas, ou seja, cada jogador tem acesso a uma informação exclusiva (as cartas de mão). Esse fato fez com o que poker se tornasse um alvo especial para cientistas testarem a habilidade de seus computadores em resolver esses tipos de incertezas.
Quando analisamos a capacidade de um computador em resolver um jogo, uma das principais considerações é o número total de posições dentro do jogo, ou o chamado “tamanho” do jogo. O Jogo da Velha, por exemplo, tem o tamanho 103 ou 1.000 e, como todos sabem, é solucionado. Limit Hold’em tem 1014 (100 trilhões), surpreendentemente um tamanho menor que Damas (1020), mas não necessariamente mais fácil.
“Apesar de ser um jogo menor do que Damas, a natureza incompleta do HUNLHE (heads-up limit hold’em) faz dele um desafio muito maior para os computadores resolverem”, diz o UACPRG na Science.
Bem, então o UACPRG resolveu esse jogo. O que isso significa para os jogadores?
Tuomas Sandholm, criador do "Tartanian7"
"Tartanian7" em ação
NÓS SEREMOS CAPAZES DE USAR ROBÔS PARA JOGAR MAIS PERTO DA PERFEIÇÃO?
Na última década, o aprendizado tem mudado bastante, com a chegadas desses programas avançados, isso pode mudar novamente.
Enquanto muitas pessoas aprenderam simplesmente praticando ou lendo um ou dois livros de estratégia, hoje existem ferramentas cada vez mais modernas de aprendizagem, incluindo vídeo-aulas e programas de análise que armazenam informações como PFR% (porcentagem de raise pré-flop) e VPIP% (porcentagem de vezes que você coloca voluntariamente fichas no pote).
Se hoje é importante observar os melhores jogadores para aprender poker, no futuro, Sandholm acredita que todos os melhores jogadores irão aprender o jogo de computadores como o Tartanian7 e o Cepheus (o que você pode fazer de graça, agora, no website do Projeto Cepheu de Poker: poker-play.srv.ualberta.ca).
“Esse robô tem tanto para dizer às pessoas sobre poker que chega a ser ridículo”, diz Sandholm a Card Player, referindo-se ao Tartanian7. “Ele joga muito diferente dos humanos. Humanos aprendem com outros humanos, não como jogar de maneira ótima. Tartanian7, por sua vez, nunca viu um humano jogar poker. Em vez disso, ele parte do princípio de como o poker deve ser jogado e as conclusões são diferentes das que os humanos alcançam”.
Esses programas de computador determinam a melhor estratégia puramente das regras do jogo. Eles não se baseiam em quaisquer experiências anteriores contra outros robôs ou humanos. Com essa abordagem diferente, os robôs encontraram uma maneira única de jogar, o que pode ser bastante instrutivo para os humanos aprenderem.
Em seu artigo na revista Science, o UACRPG detalha conceitos estratégicos que eles provaram com o Cepheus e que vários jogadores já sabiam, mas que não tinham como provar. Por exemplo, eles conseguiram provar que o jogador no button tem uma vantagem de 0,088 blinds por mão.
Perguntado se ele pensa que, no futuro, aprender de programas como o Tartanian7 será essencial para competir entre os melhores do mundo, Sandholm não mede as palavras: “Acredito que sim. É como se fosse uma arma nuclear para o poker. Você não vai querer trazer um faca para um briga de armas de fogo”.
Enquanto Sandholm crê piamente na possibilidade de aprender com os computadores, Reiff é um pouco reticente em como Cepheus pode ser usado para ensinar jogadores humanos.
Dr. Michael Bowling, líder do Computer Poker Research da Universidade de Alberta
Conheça os mestres da inteligência artificial do Poker
Cepheus (2015)
Joga: Heads-up limit hold’em.
Criação: Computer Poker Research Group da Universidade de Alberta, liderados por Dr. Michael Bowling.
Credenciais: Primeiro programa a solucionar um jogo de informações incompletas. No caso, o heads-up limit hold’em.
Processo: Treinou contra ele mesmo, jogando mais de um bilhão de mãos. A cada mão, sua performance era melhorada. Cepheus treinou por dois meses usando mais de 4.000 CPUs, processando mais de seis bilhões por segundo. Cepheus jogou mais poker do que toda a raça humana.
Tartania7 (2014)
Joga: Heads-up no-limit hold’em.
Criação: Professor de Ciências de Computação da CMU Tuomas Sandholm e seus alunos de PhD Noam Brown e Sam Ganzfried.
Credenciais: Ganhou ambas categorias de heads-up no-limit hold’em na competição anual de poker da AAAI. A primeira categoria era “todo bankroll”, em que os robôs jogavam entre si e aquele que ganhasse mais dinheiro virtual vencia. A outra categoria era “competição instantânea”, em que, a cada round, o robô que perdesse mais dinheiro era eliminado, até sobrar apenas um.
Processo: Foram quarto estudantes de PhD e o próprio Sandholm trabalhando desde 2005. No último ano eles trabalharam sem parar, com supercomputadores rodando a todo vapor.
Prelude (2014)
Joga: Heads-up no-limit hold’em.
Criação: Tim Reiff.
Credenciais: Terceiro colocado de heads-up no-limit hold’em da AAAI na categoria “todo bankroll”. E vice na “competição instantânea”. “Muito bom. Já que os caras da CMU usaram um supercomputador em Pittsburgh”, disse Reiff.
Processo: Foi cuidadosamente preparado com 25,5 bilhões de probabilidades para cada situação. Reiff gastou muito tempo configurando o programa com variações do jogo e fazendo centenas de experimentos práticos.
Polaris (2007)
Joga: Heads-up limit hold’em
Criação: Computer Poker Research Group da Universidade de Alberta.
Credenciais: Primeiro programa a solucionar um jogo de informações incompletas. No caso, o heads-up limit hold’em.
Processo: Polaris é conhecido por ser o primeiro robô ter sucesso contra profissionais de ponta. Na primeira batalha entre homem e máquina, em 2007, Polaris jogou quatro rounds de duplicate poker (as mesmas mãos dadas para a máquina em uma mesa são dadas para o humano na outra e vice-verda) contra Ali Eslami e Phil Laak, sendo 500 mãos por round. No final, o robô empatou o primeiro round, venceu o segundo e perdeu os dois últimos. Em 2008, uma versão aprimorada do Polaris voltou e jogou contra seis profissionais em um formato similar. Foram três vitórias, duas derrotas e um empate para a máquina. Durante as 6.000 mãos jogadas, Polaris conseguiu sair 195 big blinds no lucro.
Você pode conferir esta matéria na revista CardPlayer Brasil - Edição 93. Para adquirir o exemplar avulso, clique aqui. Para se tornar assinante, clique aqui.