GERAL

As máquinas dominarão o poker online?

Confira a matéria que a Card Player Brasil publicou em 2015, na edição 93

01/02/2017 11:43

As máquinas dominarão o poker online?/CardPlayer.com.br — Game Theory Optimal - Como a inteligência artificial irá modificar o Poker

Com a humilhante derrota sofrida por quatro profissionais high stakes por um robô, uma velha pergunta voltou a assombrar o mundo do poker: os robôs dominarão o poker online? O No-Limit Texas Hold'em se tornará um jogo resolvido por um algoritmo? E quanto às outras formas de poker? O GTO (Game Theory Optimal) é uma realidade?

Em 2015, a Card Player Brasil publicou uma matéria de Erik Fast bem esclarecedora sobre o assunto. Confira!

“No poker, Game Theory Optimal, basicamente, consiste em desenvolver uma estratégia que tenha o máximo de EV (Valor Esperado) quando seu oponente sempre aplica a contra-estratégia perfeita”.

Estudar o poker não é mais algo restrito a frequentadores de cassinos e clubes de poker ou a profissionais da internet. Nos últimos anos, as notícias sobre pesquisadores que vêm desenvolvendo programas para solucionar o poker estão cada vez mais presentes nas manchetes de sites especializados de todo o mundo.
Programadores gabaritados estão criando supercomputadores que jogam bilhões de mãos por segundo. O foco é estudar jogos com informações incompletas, o que pode ter grande impacto no uso da inteligência artificial (AI) para resolver problemas, de outras áreas, ainda mais complexos.

Desde que o computador Deep Blue derrotou o Grão-Mestre de xadrez Garry Kasparov, em 1997, muitos têm imaginado quando uma máquina poderia fazer o mesmo no poker. Neste ano, um artigo publicado pelo Grupo de Programação de Pesquisa de Poker da Universidade de Alberta (University of Alberta Computer Poker Research Group — UACPRG), no Canadá, no site Science, intitulado de Heads-up Limit Hold’em Poker is Solved (Heads-up Limit Hold’em está Solucionado) mostra que essa realidade está mais próxima do que o esperado.

O que esses avanços significam para os jogadores de poker? Como isso irá mudar o jogo? O processo de aprendizagem do poker será revisto? Eventualmente, os outros formatos também serão resolvidos?

Heads-up No-Limit Hold'em está solucionado

Mas o que significa o título desse artigo?

Neil Burch, estudante PhD da Universidade de Alberta, membro do UACPRG, e coautor do artigo no Science, falou à Card Player: “Solucionar um jogo quer dizer que achamos o equilíbrio de Nash: estratégias que maximizam nossas vitórias contra alguém. É uma estratégia fixa, então não varia de oponente para oponente, mas é uma estratégia fixa muito especial”.

Efetivamente isso significa que eles acharam um teorema estratégico perfeito que deixará o programa break even ou lucrativo depois de uma amostra considerável de mãos. Ou seja, não importa qual estratégia seu oponente use, ele será derrotado pela estratégia ótima do computador. No caso de ambos utilizarem o mesmo sistema, ambos ficaram no zero a zero.

O robô ganhou o nome de “Cepheus”. Ele cria uma base de dados própria que procura sempre a decisão perfeita para cada situação.

“Heads-up Limit Hold’em Poker is Solved”, continua Burch, “porque Cepheus está perto o suficiente do equilíbrio de Nash. Nós podemos medir quão bom ele é porque, mesmo que você seja o jogador perfeito e conheça a estratégia de Cepheus, no longo prazo, você ganhará perto de 0,001 big blind por mão jogando contra ele. Como sabemos que isso é suficientemente baixo? Porque uma única mão de poker é extremamente complexa — algumas mãos deveriam envolver ganhos grandes; outras, perdas pequenas. A vida humana não é longa o bastante para você diferenciar 0,001 big blind do jogo perfeito. Robôs anteriores não tinham essa garantia contra um oponente perfeito. Quero dizer, eles podiam ser bons o bastante para vencer humanos e saírem no zero a zero contra outros robôs, mas sempre ficava a possibilidade de ganhar muito mais, pois o jogo não era perfeito”.

Para criar o Cepheus o time do UACPRG usou 200 computadores. Foram 70 dias direto funcionando para criar uma base de dados com mais de 11 terabytes. Quando o programa estava diante de uma decisão, ele rapidamente acessava cada byte da base de dados para achar qual a solução mais eficaz. Ele não se ajusta a cada oponente individualmente, mas faz uso de uma abordagem inexplorável, não importando qual estratégia o oponente adote.

Mas por que a ciência dedicou mais de uma década para solucionar, em particular, o heads-up limit hold’em?

Programadores vêm testando suas criações contra humanos há tempos, mas o poker é um jogo diferente do xadrez de muitas maneiras. A diferença mais clara é: o poker é um jogo de informações incompletas ou imperfeitas, ou seja, cada jogador tem acesso a uma informação exclusiva (as cartas de mão). Esse fato fez com o que poker se tornasse um alvo especial para cientistas testarem a habilidade de seus computadores em resolver esses tipos de incertezas.

Quando analisamos a capacidade de um computador em resolver um jogo, uma das principais considerações é o número total de posições dentro do jogo, ou o chamado “tamanho” do jogo. O Jogo da Velha, por exemplo, tem o tamanho 103 ou 1.000 e, como todos sabem, é solucionado. Limit Hold’em tem 1014 (100 trilhões), surpreendentemente um tamanho menor que Damas (1020), mas não necessariamente mais fácil.

“Apesar de ser um jogo menor do que Damas, a natureza incompleta do HUNLHE (heads-up limit hold’em) faz dele um desafio muito maior para os computadores resolverem”, diz o UACPRG na Science.

Bem, então o UACPRG resolveu esse jogo. O que isso significa para os jogadores?

Tuomas Sandholm

Tuomas Sandholm, criador do "Tartanian7"

EU TENHO QUE ME PREOCUPAR EM ENFRENTAR ESSE TIPO DE PROGAMA NA INTERNET?

No momento, muitos leitores devem estar se perguntando: “Isso significa que a qualquer hora eu posso enfrentar um robô invencível na internet sem perceber?” Provavelmente não. Mesmo se, daqui a muito tempo, alguém colocar isso em algum site (vale lembrar que sites usam várias ferramentas para detectar e remover robôs antes que eles atinjam um alto grau de desenvolvimento), qualquer robô será muito menos sofisticado do que o Cepheus.

“Mesmo se houver um robô jogando, ele não terá a solução do jogo. Será apenas um programador que tentou escrever alguns comandos para ele seguir. Ele não seria nem um pouco competente”, diz Tim Reif, ex-jogador profissional, criador de robôs por hobby e que desenvolveu um programa para no-limit hold’em chamado “Prelude”. “Pessoalmente, eu quase não tenho preocupações sobre isso e acho que as outras pessoas também deveriam esquecer essa coisa. Os robôs não serão tão bons”.

Agora, apesar de o HUNLH estar solucionado, os programadores estão bem longe de resolver o no-limit hold’em, mesmo quando falamos apenas de heads-up.

Tuomas Sandholm, do Departamento de Ciências da Computação da Universidade de Carnegie Mellon, criou um programa chamado “Tartanian7”, que venceu duas categorias de no-limit hold’em na AAAI (Association for the Advancement of Artificial Intelligence) Annual Computer Poker Competition — em tradução livre: Competição Anual de Ciências da Computação do Poker da Associação para Avanços da Inteligência Artificial, vencendo todos os oponentes com facilidade, também acha que os jogadores não devem se preocupar em encarar robôs nos feltros.

“Existem programas que estão por aí, nos feltros online, alguns deles, inclusive, participaram da competição da AAII e foram bastante mal”, diz Sandholm.

Uma das razões para justificar o porquê dos robôs não serem tão bons é porque eles não foram feitos pela elite dos programadores e teóricos do jogo, como Sandholm e o UACRPG, que têm décadas de experiência e acesso a uma capacidade incrível de supercomputadores.

O robô de Sandholm foi criado de maneira similar ao Cepheus, com o objetivo de ser invencível jogando heads-up. No-limit hold’em, claro, é muito mais complexo devido à variação no tamanho das apostas, o que não existe em limit.

“Atualmente, não sabemos se o melhor programa de no-limit hold’em, o nosso, pode vencer os melhores jogadores do mundo”, revela Sandholm. “Eu diria que sim, mas ainda não houve um duelo controlado homem versus máquina”.

Na verdade, em 2007 houve uma partida do tipo. Os profissionais Phil Laak e Ali Eslami enfrentaram um dos primeiros modelos da Universidade de Alberta, o Polaris. Laak e Eslami levaram a melhor, mas uma versão melhorada do Polaris venceu uma disputa similar um ano depois.

Aproximadamente oito anos depois, o UACRPG, com o PhD Michael Bowling liderando um time de professores e estudantes de PhD, finalmente conseguiram atingir o ponto que eles podem dizer, sem sombras de dúvidas, que seu robô está jogando perfeitamente. Mas não será tão fácil atingir o mesmo tipo de perfeição no que tange o no-limit hold’em, um jogo de tamanho 10140, o que torna o limit hold’em um anão perto do seu “parente sem limites”. É bom lembrar também que esses robôs são inúteis em uma mesa com mais de dois jogadores. Ou seja, nós, provavelmente, não estaremos vivos para encontrar esses adversários mecânicos nos feltros virtuais.

Tartanian7

"Tartanian7" em ação

NÓS SEREMOS CAPAZES DE USAR ROBÔS PARA JOGAR MAIS PERTO DA PERFEIÇÃO?

Na última década, o aprendizado tem mudado bastante, com a chegadas desses programas avançados, isso pode mudar novamente.

Enquanto muitas pessoas aprenderam simplesmente praticando ou lendo um ou dois livros de estratégia, hoje existem ferramentas cada vez mais modernas de aprendizagem, incluindo vídeo-aulas e programas de análise que armazenam informações como PFR% (porcentagem de raise pré-flop) e VPIP% (porcentagem de vezes que você coloca voluntariamente fichas no pote).

Se hoje é importante observar os melhores jogadores para aprender poker, no futuro, Sandholm acredita que todos os melhores jogadores irão aprender o jogo de computadores como o Tartanian7 e o Cepheus (o que você pode fazer de graça, agora, no website do Projeto Cepheu de Poker: poker-play.srv.ualberta.ca).

“Esse robô tem tanto para dizer às pessoas sobre poker que chega a ser ridículo”, diz Sandholm a Card Player, referindo-se ao Tartanian7. “Ele joga muito diferente dos humanos. Humanos aprendem com outros humanos, não como jogar de maneira ótima. Tartanian7, por sua vez, nunca viu um humano jogar poker. Em vez disso, ele parte do princípio de como o poker deve ser jogado e as conclusões são diferentes das que os humanos alcançam”.

Esses programas de computador determinam a melhor estratégia puramente das regras do jogo. Eles não se baseiam em quaisquer experiências anteriores contra outros robôs ou humanos. Com essa abordagem diferente, os robôs encontraram uma maneira única de jogar, o que pode ser bastante instrutivo para os humanos aprenderem.

Em seu artigo na revista Science, o UACRPG detalha conceitos estratégicos que eles provaram com o Cepheus e que vários jogadores já sabiam, mas que não tinham como provar. Por exemplo, eles conseguiram provar que o jogador no button tem uma vantagem de 0,088 blinds por mão.

Perguntado se ele pensa que, no futuro, aprender de programas como o Tartanian7 será essencial para competir entre os melhores do mundo, Sandholm não mede as palavras: “Acredito que sim. É como se fosse uma arma nuclear para o poker. Você não vai querer trazer um faca para um briga de armas de fogo”.

Enquanto Sandholm crê piamente na possibilidade de aprender com os computadores, Reiff é um pouco reticente em como Cepheus pode ser usado para ensinar jogadores humanos.

Dr. Michael Bowling

Dr. Michael Bowling, líder do Computer Poker Research da Universidade de Alberta

“É complicado aprender com ele. A comparação que eu faria é com uma máquina de xadrez. Você pode jogar xadrez e ter uma máquina lhe falando qual é o melhor movimento para tal situação, mas a verdade é que você não sabe a razão para executar aquela ação”, conta Reiff. “Se pode ir ao website e ver o que o Cepheus faz em cada situação. Ele lhe dará uma informação como, ‘se você tem A-J, você deve apostar no flop 6,4% das vezes’. É difícil pegar esse dado e utilizar na prática. É impossível para o ser humano memorizar e usar todas essas porcentagens. Não é um conjunto de regras que você deveria seguir. Isso não é heurístico”.

Reiff também esclareceu alguns pontos sobre esses robôs, que podem não ser a melhor saída para aumentar os ganhos.

“O Cepheus está jogando em equilíbrio e não tentando explorar o adversário. Ele basicamente está jogando a matemática do jogo, que é basicamente imbatível”, revela Reiff. “Na minha opinião, tentar jogar dessa maneira, para um humano, pode nem funcionar. Uma pessoa deve tentar explorar o seu oponente. Poker não é apenas sobre vencer o adversário, mas também sobre maximizar sua vantagem sobre ele”.

Isso dá base para o que David Sklansky falou em um entrevista para o Bloomberg, em que ele diz que o computado poderia vencer um jogador ruim, mas que um profissional, como ele, “destruiria o iniciantes com méritos e louvor”.

A verdade é que apenas o tempo irá dizer se robôs programados para jogar poker irão ajudar no treinamento de seres humanos.

E para o mundo? Quais são as implicações com o desenvolvimento da inteligência artificial?
A verdade é que as tentativas de cientistas para solucionarem jogos como xadrez e poker são apenas modelos para um “bem maior”, que podem ter grandes consequências no mundo real. O complicado sistema do poker serve para testar limites de vários tipos de algoritmos.

Pouca gente sabe, mas Kit Chen e Mike Bowling conseguiram criar um algoritmo, baseados no estudos do poker, para tratamento e testes de diabetes. Segundo Chen e Bowling, existem várias outras aplicações, que vão desde a área de segurança até a comercial.
No final, robôs como Cepheus, Tarntanian7 e Prelude vão servir para avanços não só no poker, como também para a sociedade.

Conheça os mestres da inteligência artificial do Poker

Cepheus (2015)

Joga: Heads-up limit hold’em.

Criação: Computer Poker Research Group da Universidade de Alberta, liderados por Dr. Michael Bowling.

Credenciais: Primeiro programa a solucionar um jogo de informações incompletas. No caso, o heads-up limit hold’em.

Processo: Treinou contra ele mesmo, jogando mais de um bilhão de mãos. A cada mão, sua performance era melhorada. Cepheus treinou por dois meses usando mais de 4.000 CPUs, processando mais de seis bilhões por segundo. Cepheus jogou mais poker do que toda a raça humana.

Tartania7 (2014)

Joga: Heads-up no-limit hold’em.

Criação: Professor de Ciências de Computação da CMU Tuomas Sandholm e seus alunos de PhD Noam Brown e Sam Ganzfried.

Credenciais: Ganhou ambas categorias de heads-up no-limit hold’em na competição anual de poker da AAAI. A primeira categoria era “todo bankroll”, em que os robôs jogavam entre si e aquele que ganhasse mais dinheiro virtual vencia. A outra categoria era “competição instantânea”, em que, a cada round, o robô que perdesse mais dinheiro era eliminado, até sobrar apenas um.

Processo: Foram quarto estudantes de PhD e o próprio Sandholm trabalhando desde 2005. No último ano eles trabalharam sem parar, com supercomputadores rodando a todo vapor.

Prelude (2014)

Joga: Heads-up no-limit hold’em.

Criação: Tim Reiff.

Credenciais: Terceiro colocado de heads-up no-limit hold’em da AAAI na categoria “todo bankroll”. E vice na “competição instantânea”. “Muito bom. Já que os caras da CMU usaram um supercomputador em Pittsburgh”, disse Reiff.

Processo: Foi cuidadosamente preparado com 25,5 bilhões de probabilidades para cada situação. Reiff gastou muito tempo configurando o programa com variações do jogo e fazendo centenas de experimentos práticos.

Polaris (2007)

Joga: Heads-up limit hold’em

Criação: Computer Poker Research Group da Universidade de Alberta.

Credenciais: Primeiro programa a solucionar um jogo de informações incompletas. No caso, o heads-up limit hold’em.

Processo: Polaris é conhecido por ser o primeiro robô ter sucesso contra profissionais de ponta. Na primeira batalha entre homem e máquina, em 2007, Polaris jogou quatro rounds de duplicate poker (as mesmas mãos dadas para a máquina em uma mesa são dadas para o humano na outra e vice-verda) contra Ali Eslami e Phil Laak, sendo 500 mãos por round. No final, o robô empatou o primeiro round, venceu o segundo e perdeu os dois últimos. Em 2008, uma versão aprimorada do Polaris voltou e jogou contra seis profissionais em um formato similar. Foram três vitórias, duas derrotas e um empate para a máquina. Durante as 6.000 mãos jogadas, Polaris conseguiu sair 195 big blinds no lucro.

Você pode conferir esta matéria na revista CardPlayer Brasil - Edição 93. Para adquirir o exemplar avulso, clique aqui. Para se tornar assinante, clique aqui.