Piconzaz Piconzaz (PokerStars.fr) CPiste Holothurisme : +162 % 548 posts Posted September 24, 2013 Bonjour à tous, Pour commencer ce post, j'aimerais dire quelques mots sur mon profil et mes motivations. Je suis chercheur (en postdoc) dans le domaine de l'apprentissage automatique (machine learning). Je m'intéresse notamment aux aspects statistiques et computationnels de l'apprentissage. Je ne connais pas très bien la littérature sur le poker mais me pose pas mal de questions et aimerais avoir vos retours et engager une discussion sur le sujet. Si je dis des choses erronées, je vous serai très reconnaissant de me le faire remarquer. Même si j'ai un certain souci de produire des choses utiles en pratique, mon post va probablement être assez théorique, et destiné à des gens qui s'intéressent avant tout à ces aspects, et en particulier aux gens ayant des notions assez avancées en statistiques. Je connais relativement peu la théorie des jeux mais je connais grossièrement les grandes lignes. Le point de vue de la théorie des jeux est à mon avis d'un intérêt très limité pour le poker. La valeur d'une stratégie est évaluée par l'ev dans le pire cas, c'est à dire si le (ou les) autre joueur répond de manière optimale à ta stratégie (qu'on suppose que l'adversaire connaît, donc). La stratégie optimale est alors celle qui maximise l'ev dans ces conditions. Il se trouve qu'elle coïncide avec un point d'équilibre de Nash (s'il existe, et il peut y en avoir plusieurs) et a comme propriété (dans ce cas) de faire que chaque joueur perd de l'ev s'il s'éloigne unilatéralement de sa stratégie à l'équilibre. C'est donc un point de vue très pessimiste, qui vise à faire "le moins pire possible dans le pire cas". Pour modérer mon propos, il faut admettre que souvent, ces stratégies optimales ne sont pas si mauvaises, même lorsque l'adversaire ne répond pas optimalement. Pour autant, le point de vue de départ est à mon avis trop pessimiste intrinsèquement. En plus, d'un point de vue "mathématique", la recherche de ces stratégies optimales (au sens théorie de jeux) est complexe et ne peut se faire exactement que pour des jeux assez simples (beaucoup plus que le poker ne l'est en réalité). En revanche, la stratégie à l'équilibre, si elle existe et si on peut la trouver, a le bon goût d'être valable universellement, indépendamment de la stratégie adverse. À "l'opposé", on a la recherche de stratégie optimalement exploitantes. Étant donné une stratégie adverse, on cherche la stratégie qui maximise les gains contre celle-là. Si l'autre joue la stratégie optimale au sens de la théorie des jeux, alors il faut soi-même utiliser cette stratégie à l'équilibre. Sauf qu'en pratique, dans la vraie vie, personne ne la connaît et/ou n'est capable de l'appliquer. Tout le reste du temps, il existe des stratégies qui permettent d'avoir de meilleurs résultats. En ce sens, la recherche de ces stratégies est beaucoup plus intéressante et proche de ce qu'on recherche au poker. Un point positif, d'un point de vue mathématique, est que étant donnée une stratégie donnée, chercher la stratégie exploitante optimale est un problème beaucoup beaucoup plus simple que la recherche de stratégie à l'équilibre. Pour l'instant, corrigez-moi si j'ai tort, ou si j'ai été imprécis, mais tout indique qu'il vaudrait mieux s'intéresser aux stratégies exploitantes et laisser de côté la théorie des jeux. Cela dit, il y a un problème majeur avec les stratégies exploitantes : leur recherche suppose de connaître la stratégie adverse, à un instant donné. En pratique, on ne connaît jamais la stratégie adverse. Il faut donc essayer de l'estimer. C'est un problème qui peut être vu formellement comme un pur problème d'estimation statistique. Et malheureusement, un problème extrêmement compliqué. A priori, pour caractériser la stratégie adverse, il faut estimer un assez grand nombre de paramètres. En plus, les échantillons (les hh, principalement) qu'on a à disposition, pour faire de l'estimation, sont la plupart du temps de taille très faible. Par ailleurs, il y a autant de stratégies que de joueurs. Et pire, pour un joueur donné, la stratégie n'est pas stationnaire mais évolue au cours du temps. Il faut donc prendre en compte énormément de paramètres (à estimer eux-même), sur la dynamique en cours, la capacité de l'adversaire à s'adapter, par exemple, pour pouvoir estimer sa stratégie à un temps donné. D'un point de vue purement statistique, c'est vraiment atrocement compliqué. Mais c'est à mon avis "la voie qu'il faudrait suivre, dans l'idéal". Côté espoirs, l'essor récent de l'apprentissage statistique nous fournit des outils tout à fait pertinents pour résoudre ce genre de problèmes. Si jamais certains connaissent un peu le sujet, l'apprentissage en ligne (notamment les bandits) me paraissent pouvoir être assez adaptés, pour ces problèmes d'estimation. Je ne veux pas rentrer plus dans les détails pour le moment, mais je pourrai essayer par la suite, le cas échéant. J'aimerais donc avoir votre point de vue sur ce pavé. Mieux, j'aimerais avoir des références sur ces sujets, si vous en avez. Et éventuellement, si d'autres gens sont intéressés, on pourrait commencer à y réfléchir plus précisément, ensemble. 16 Share this post Link to post Share on other sites
manub Jon Snowroll (Winamax.fr) Invité spécial Holothurisme : +218 % 12726 posts Posted September 24, 2013 (edited) Pour l'instant, corrigez-moi si j'ai tort, ou si j'ai été imprécis, mais tout indique qu'il vaudrait mieux s'intéresser aux stratégies exploitantes et laisser de côté la théorie des jeux. Tout d'abord, tres bon post. Je suis d'accord avec ce que je quote ci-dessus, je préfere largement développer une approche exploitante" que de me concentrer sur une approche "Game Theory perfect". Cela dit, il y a un problème majeur avec les stratégies exploitantes : leur recherche suppose de connaître la stratégie adverse, à un instant donné..... En pratique, on ne connaît jamais la stratégie adverse. Il faut donc essayer de l'estimer. La plupart des joueurs compétents raisonnent de maniere récursive: si on ne connait pas la stratégie adverse avec précision, on peut l'estimer avec une probabilité de succes de plus en plus importante au fur et á mesure qu'on développe son expérience contre des joueurs de profils différents. Il y a effectivement autant de stratégies que de joueurs mais il y a aussi de grandes "familles" de stratégie basées sur la psychologie des adversaires et leur degré de technicité. Parfois en observant comment une personne joue sur une seule street on peut en déduire beaucoup de choses pour la suite et "reconstruire" l'ensemble de sa stratégie sur tous les spots importants. Pour y parvenir, il faut accumuler dans sa tete une grosse base de données de styles de jeu et de plays associés afin d'y recourir quand le cas se présente. Garde a l'esprit aussi que concretement le but au poker n'est pas d'exploiter l'adversaire á la perfection mais de le faire mieux qu'il ne le fait lui-meme contre nous. Ca implique donc une analyse poussée basée sur l'expérience et l'observation ainsi qu'une conscience aigue de l'image qu'on projette et de comment les autres vont en déduire une vision de notre propre stratégie. Edited September 24, 2013 by manub 3 Share this post Link to post Share on other sites
tomasssss CPiste Holothurisme : +81 % 649 posts Posted September 24, 2013 Beaucoup des meilleurs joueurs actuels (par exemple sauce1234, luvthewnba, wcgrider et d autres) s'appuient sur une approche gto, cela prouve deja que ce n est pas sans interet. s interesser a la theorie optimale cela permet de mieux comprendre le jeu auquel on joue ( et certes d'en voir l immense complexite}, ce qui ne veux pas dire qu il ne faut pas utiliser des strategies exploitantes. je te conseille le livre de will tipton pour le hu si cela t interresse, ou celui de juanda pour le 6max (pas lu encore en entier celui la), tu verras qu on peut y trouver de quoi progresser. 1 Share this post Link to post Share on other sites
manub Jon Snowroll (Winamax.fr) Invité spécial Holothurisme : +218 % 12726 posts Posted September 24, 2013 Puisque tu demandes des références jette un oeil á http://www.pokersnowie.com/ C'est un outil d'évaluation GTO plutot bien fait et crédible. C'est le contraire total d'une stratégie exploitante. 0 Share this post Link to post Share on other sites
Piconzaz Piconzaz (PokerStars.fr) CPiste Holothurisme : +162 % 548 posts Posted September 24, 2013 Beaucoup des meilleurs joueurs actuels (par exemple sauce1234, luvthewnba, wcgrider et d autres) s'appuient sur une approche gto, cela prouve deja que ce n est pas sans interet. s interesser a la theorie optimale cela permet de mieux comprendre le jeu auquel on joue ( et certes d'en voir l immense complexite}, ce qui ne veux pas dire qu il ne faut pas utiliser des strategies exploitantes. Je suis d'accord que la théorie des jeux est très intéressante en soi, déjà. Et en plus, je suis tout à fait d'accord qu'étudier et de comprendre ce qu'est une stratégie gto doit pouvoir te faire largement avancer dans ta compréhension globale du jeu. Tu as raison de mettre ça en avant. Par contre, je pense que c'est quelque chose qui est beaucoup moins "applicable" d'une part parce qu'on n'est pas capable de calculer ces stratégies pour des modèles de poker qui commencent à ressemble à du vrai poker, surtout en NL. D'autre part, ce n'est pas la stratégie la plus profitable, même si les bots les plus performants (de loin, apparemment), à l'heure actuelle, sont ceux qui s'inspirent de la théorie des jeux. La plupart des joueurs compétents raisonnent de maniere récursive: si on ne connait pas la stratégie adverse avec précision, on peut l'estimer avec une probabilité de succes de plus en plus importante au fur et á mesure qu'on développe son expérience contre des joueurs de profils différents. Il y a effectivement autant de stratégies que de joueurs mais il y a aussi de grandes "familles" de stratégie basées sur la psychologie des adversaires et leur degré de technicité. Parfois en observant comment une personne joue sur une seule street on peut en déduire beaucoup de choses pour la suite et "reconstruire" l'ensemble de sa stratégie sur tous les spots importants. Pour y parvenir, il faut accumuler dans sa tete une grosse base de données de styles de jeu et de plays associés afin d'y recourir quand le cas se présente. Garde a l'esprit aussi que concretement le but au poker n'est pas d'exploiter l'adversaire á la perfection mais de le faire mieux qu'il ne le fait lui-meme contre nous. Ca implique donc une analyse poussée basée sur l'expérience et l'observation ainsi qu'une conscience aigue de l'image qu'on projette et de comment les autres vont en déduire une vision de notre propre stratégie. Sur les profils, j'avais déjà réfléchi un peu là-dessus et je pense justement qu'une solution efficace, du point de vue statistique, serait peut-être de créer plusieurs modèles associés à différents archétypes ou profils de joueurs. Ensuite, on collerait derrière ces différents modèles une distribution de probabilités (un prior, pour les stateux) qu'on pourrait estimer, et pour calculer notre "estimateur de la stratégie adverse", on ferait une combinaison pondérée des résultats des différents modèles. Ce genre d'approches (qui ressemble un peu à du Bayésien) est en général plus fiable statistiquement parce qu'elle "réduit l'espace d'hypothèses" à considérer. Et on pourrait aussi "estimer le prior" à partir des observations (c'est ce qu'on appelle les approches Bayésiennes empiriques). Bref, tout ça pour dire qu'a priori, non seulement ça paraît pertinent d'un point de vue poker, mais en plus ça paraît pertinent d'un point de vue purement statistique et qu'il existe des outils bien établis qui vont dans ce sens, et qui pourraient être utilisés. Et pour la partie exploitabilité, je suis encore un peu mitigé. C'est vrai qu'il faut faire attention à l'image qu'on projette et faire en sorte de ne pas être trop facilement exploitable. Mais j'ai aussi le sentiment que si on arrive à mettre à jour efficacement et en continu notre estimation de la stratégie adverse, alors naturellement, notre stratégie (qui sera une réponse exploitante optimale, ou presque) évoluera au rythme de l'évolution de l'adversaire, si bien qu'on n'aura jamais ce problème de devenir exploitable. C'est probablement très optimiste, mais je ne suis pas sûr qu'il soit nécessaire d'explicitement prendre en compte ces facteurs d'inexploitabilité. J'ai plutôt l'intuition que ça sera une caractéristique qui viendra "gratuitement" avec un modèle exploitant capable d'estimer "en temps réel" la stratégie adverse. Quoiqu'il en soit, merci beaucoup à tous les deux pour vos encouragements et les références ! 0 Share this post Link to post Share on other sites
gill3s CPiste Holothurisme : +19 % 2075 posts Posted September 24, 2013 Wow. Interesting Pas tout compris mais je plussoie fortement exploitabilité > gto même si j'imagine que l'idéal serait de maîtriser les 2. Bref je sors les popcorn et j'ai hâte de lire d'autre input provenant de Sharks et/ou statisticien. 0 Share this post Link to post Share on other sites
KingArthAs CPiste Holothurisme : +23 % 1829 posts Posted September 24, 2013 Peut être pouvez vous commencer par définir : Stratégie exploitante et GTO (+nash) avec qq exemples d application dans le poker pour éclaircir la différence. Car c est pas facile a suivre ... 1 Share this post Link to post Share on other sites
mad_max maxkitu (PokerStars.fr) CPiste Holothurisme : +4 % 5313 posts Posted September 24, 2013 Ben ça a été plutôt bien introduit dans le premier poste, d'autant que normalement il faut plus que quelques lignes pour se faire une réelle idée de ce que c'est (donc chapeau à l'OR déjà). Maintenant, pour te donner un exemple entre GTO et exploitante, ben je peux t'en inventer quelques uns : read sur vilain dans ce coup : il open shove flop au lieu de cbet et le fait 60% du temps. héro : AA vilain raise d'UTG, il open environ 10% UTG. GTO : héro 3bet. exploitante : héro call pour laisser vilain open shove 60% du temps. d'une manière générale, quand tu suis une logique GTO tu considères que c'est dans le schéma général que tu vas gagner/éviter de perdre. Alors que dans la logique exploitante tu t'attardes bien plus sur le coup en lui-même, parfois même sans se soucier d'une quelconque idée de range. Le cas le plus parlant reste celui de fold QQ en BvB sur un 3bet ou un 5bet alors que tu open 30% de SB. En GTO tu vas pas fold cette main (jamais) prck compte-tenu de ta range d'open et des conditions d'inexploitabilité tu te dois d'aller au bout avec cette main (sinon tu laches trop à un moment ou à un autre et c'est mauvais). Maintenant, si tu sais que ton adversaire 3bet que KK+, y'a aucun mal à fold QQ. Parfois c'est moins criant et le mec va 3bet 10% ds cette configuration mais va jamais shove sans KK+ (j'en croise des comme ça). Le résultat reste le même et fold QQ reste le meilleur play. Et en encore plus résumé, jouer GTO ne demande aucun read sur vilain. Encore mieux, à partir du moment ou tu open une main, tout le reste du coup t'es dicté par la théorie. En théorie exploitante c'est tout l'inverse (encore plus en live VS un mauvais joueur) où le cas le plus parlant est celui d'un reg qui part pour check/fold river et qui décide de check/raise river ayant perçu un signe de faiblesse de la part de vilain. 4 Share this post Link to post Share on other sites
nancanestpasmoi CPiste Holothurisme : +119 % 9072 posts Posted September 25, 2013 Très interressant. Est-ce vrai de dire que plus on joue contre des bon joueurs (et donc plus hautes limites) plus il faut jouer gto, et a contrario , jouer exploitant vs les mauvais ? 1 Share this post Link to post Share on other sites
gill3s CPiste Holothurisme : +19 % 2075 posts Posted September 25, 2013 Très interressant. Est-ce vrai de dire que plus on joue contre des bon joueurs (et donc plus hautes limites) plus il faut jouer gto, et a contrario , jouer exploitant vs les mauvais ? ce serait logique. bon joueur donc moins de leaks donc moins de choses a exploiter, cqfd. 0 Share this post Link to post Share on other sites
Piconzaz Piconzaz (PokerStars.fr) CPiste Holothurisme : +162 % 548 posts Posted September 25, 2013 Bon, il faut que je commence à repréciser que je ne suis pas du tout spécialiste de ces questions et donc que tout ce que j'ai dit ou vais dire est sujet à caution ! Est-ce vrai de dire que plus on joue contre des bon joueurs (et donc plus hautes limites) plus il faut jouer gto, et a contrario , jouer exploitant vs les mauvais ? J'ai envie de répondre oui et non. Effectivement, plus un joueur sera compétent, plus il sera à même de te lire rapidement, de se faire une idée précise de ta stratégie et d'y répondre (c'est à dire d'être exploitant !). Il devient donc de plus en plus important de ne pas être trop facilement exploitable. Et par définition, les stratégies GTO sont les moins exploitables, ou plus précisément, celles qui sont le moins profitables pour l'adversaire, s'il sait t'exploiter parfaitement. Pour répondre à ta question, il faut en fait être bien clair sur ce qu'on entend par "jouer exploitant". Supposons que tu connais parfaitement la stratégie de ton adversaire à un instant t (ce qui est bien sûr purement théorique), et qu'à partir de cet instant (et pour une certaine durée) tu vas jouer LA stratégie exploitante optimale face à cette stratégie, tu vas en fait être optimal uniquement à l'instant t. Ensuite, puisque ta stratégie n'évolue pas pendant un certain temps, ton adversaire aura alors tout le loisir de cerner ta stratégie et de s'y adapter. Comme sa stratégie aura changé à l'instant t+1, ta stratégie qui était exploitante optimale à l'instant t ne le sera plus à l'instant t+1. En fait, s'il est compétent, c'est même lui qui va t'exploiter efficacement. En fait, et c'est ce que j'essayais d'expliquer en réponse à manub un peu plus haut, le truc qui est "dangereux" face à un adversaire, c'est d'avoir une stratégie fixe, à laquelle il pourra s'adapter. Bien sûr, si cette stratégie fixe est la stratégie gto, ça ne sera moins grave, parce que ce sera précisément la moins mauvaise des stratégies fixes, celle qui peut le moins se faire exploiter. Par contre, si ta stratégie évolue au cours du temps, tu deviens de fait moins facilement exploitable (et moins exploité) parce qu'il faudra que l'adversaire puisse lire ces changements que tu fais, même si à chaque instant, la stratégie que tu appliques est potentiellement bien plus exploitable (c'est à dire que l'adversaire te fera perdre beaucoup plus s'il sait répondre parfaitement) que la stratégie gto. Finalement, je pense que si tu "joues exploitant" au sens où tu essayes, à chaque instant, de mettre à jour ta connaissance de la stratégie adverse et que tu essayes d'y répondre de la manière la plus exploitante possible, tu seras toi-même assez difficilement exploitable. Cela dit, si on pousse ce raisonnement (très théorique et spéculatif) à l'extrême et qu'on suppose qu'en chaque instant, les joueurs sont capables de connaître parfaitement la stratégie adverse, de s'y adapter parfaitement, et qu'ils "jouent exploitant", j'ai du mal à savoir ce qui va se passer. Vu que les actions sont séquentielles et pas simultanées au poker, je pense qu'on va observer un comportement très dynamique où à chaque instant la stratégie de chaque joueur va changer radicalement, pour s'adapter à l'adversaire qui lui-même aura changé radicalement sa stratégie pour s'adapter à tes changements radicaux etc. En fait, soit ça va converger vers des stratégies à l'équilibre pour les deux joueurs, soit ça va "diverger" et on aura un comportement chaotique. Il faudrait un spécialiste en dynamique des systèmes pour répondre à ça. Cela dit, c'est purement théorique et on s'en branle totalement, en fait. 1 Share this post Link to post Share on other sites
gill3s CPiste Holothurisme : +19 % 2075 posts Posted September 25, 2013 (edited) (...) et on s'en branle totalement, en fait. Mais non ! Pour un mec soit disant pas spécialiste, je trouve que tu analyses plutot bien le sujet. Edited September 25, 2013 by gill3s 0 Share this post Link to post Share on other sites
MaadGambler CPiste Holothurisme : +49 % 173 posts Posted September 25, 2013 Excellents posts d'OP, et un sujet très intéressant qui mérite qu'on s'y attarde un peu. Alors tout d'abord tu verras que dans le domaine de l'opponent modelling, de nombreux travaux ont déjà été menés, et la plupart par la même équipe de chercheurs, considérée comme l'avant-garde de la recherche dans ce domaine : l'UACPRG, dont tu pourras retrouver toutes les publications ici : http://poker.cs.ualberta.ca/publications.html Si tu comptes t'attaquer à la mise en place d'une stratégie optimalement exploitante dynamique, (et je t'encourage vivement dans ce sens, car c'est un challenge des plus passionnants au niveau scientifique), tu vas rencontrer une vaste variété de problèmes à résoudre, parmi lesquels la collection de données, la modélisation effective de l'adversaire, et la génération d'un modèle le plus fiable possible, le tout dans un ordre de complexité suffisamment acceptable. Je vais passer les autres sujets que tu auras l'occasion d'approfondir lors de ton parcours de la littérature et me concentrer sur le plus piquant (héhé): l'opponent modellling. Il faut savoir qu'il existe tout d'abord 2 grands principes sur l'opponent modelling : 1) L'explicit Modelling L'explicit Modelling était ton idée première, c'est-à-dire de rechercher quelle stratégie est jouée par l'adversaire afin d'en identifier des faiblesses et utiliser un modèle pour développer une contre-stratégie efficace. Plus précisément, on utilise les données (actions adverses) pour estimer un modèle et déterminer sa réponse (contre-stratégie). De mémoire différentes approches bayésiennes ont effectivement déjà été employées à cet effet comme tu le mentionnais, avec ou sans Monte-Carlo, Rao-Blackwell... Je n'ai plus les articles, mais tu devrais les retrouver assez facilement sur le site de l'UACPRG 2) L'implicit Modelling L'implicit Modelling fonctionne à l'inverse de l'Explicit Modelling. En effet ici on va tout d'abord générer un portfolio de réponses (contre-stratégies) en amont et utiliser les données (actions adverses) pour déterminer l'utilité de chaque réponse du portfolio. On peut tout de suite voir les avantages que cette méthode peut avoir au niveau calculatoire où une partie est déjà pré-calculée, comparé à l'explicit modelling qui est beaucoup pus gourmand. http://poker.cs.ualberta.ca/publications/AAMAS13-modelling.pdf Tu verras également que bon nombre de recherches se concentrent en premier sur des versions "restreintes" du Poker telles que le Leduc Poker, ou le Kuhl Poker afin tout d'abord de réduire la variance et également de rendre la taille des résultats traçable et les résultats plus aisément reproductibles. Toujours d'un point de vue calculatoire, des approximations intéressantes ont été développées qui te serviront très certainement lors de tes travaux, comme une approximation efficace d'un Equilibre de Nash à l'aide d'une Counter Factual Regret Minimization (Algorithme approximant une stratégie optimale) de Monte Carlo http://poker.cs.ualberta.ca/publications/AAMAS12-pcs.pdf Pour finir, quelques articles en vrac qui pourront t'aider : http://poker.cs.ualberta.ca/publications/bard.msc.pdf http://poker.cs.ualberta.ca/publications/NIPS12.pdf http://poker.cs.ualberta.ca/publications/hoehn.msc.pdf En tout cas tu as les bonnes pistes sans avoir même avoir parcouru la littérature sur le sujet, il me semble donc fort improbable que tu n'arrives pas à pondre un truc qui vaille le coup dans tes travaux Te décourage pas par la masse de papelards qui foisonnent et bon courage ! (t'en auras besoin héhé ) 4 Share this post Link to post Share on other sites
Piconzaz Piconzaz (PokerStars.fr) CPiste Holothurisme : +162 % 548 posts Posted September 25, 2013 (edited) Te décourage pas par la masse de papelards qui foisonnent et bon courage ! (t'en auras besoin héhé ) put**n, mec, tellement merci ! Avec des recherches très sommaires, j'étais effectivement tombé sur cette équipe de recherche, sans avoir eu le temps de pouvoir vraiment lire leurs papiers. Ton résumé/intro va énormément me faciliter la tâche ! Il se trouve que le chef de leur équipe, Michael Bowling, est très souvent à une conférence d'apprentissage à laquelle je vais assister début décembre. Je prie pour qu'il y soit cette année pour pouvoir aller le harceler. Plus en détail, j'ai commencé à réfléchir effectivement aux points que tu soulèves. Effectivement, l'explicit modeling est intéressant parce que c'est la façon la plus "naturelle" de formuler les choses mais j'ai vite senti que d'un point de vue statistique, ça serait m**dique au possible. Trop de paramètres, pas assez de données (enfin je reviendrai là-dessus). J'en étais donc arrivé à un truc beaucoup plus proche de l'implicit modeling, je crois. Je pense qu'une "bonne" façon de faire pourait être, en première approximation, de définir a priori des archétypes de joueurs, de stratégies adverses et d'avoir effectivement "précalculé" la stratégie exploitante optimale pour chacune. Ensuite, je pense que plutôt que d'utiliser le thinking process "traditionnel", consistant à identifier le profil LE plus probable pour l'adversaire, et de choisir LA stratégie exploitante correspondante, on pourrait plutôt coller une distribution de probas (pour chaque adversaire) sur les différents profils et prendre une décision optimale "en moyenne". On se servirait donc essentiellement des données et observations pour mettre à jour cette distribution sur les archétypes. On a alors considérablement réduit la compléxité du problème. Pour autant, je pense que ça donnera de bien meilleurs résultats que d'essayer d'associer un UNIQUE profil à l'adversaire, à chaque décision. Mais c'est ptet déjà fait, à voir. Petite remarque "machine learning", plutôt que d'être définis par des experts, les archétypes pourraient certainement être appris, en analysant une base de donnée de HH la plus grande possible. Pour le point sur la "collecte de données", c'est effectivement un problème atrocement compliqué. En statistiques et en machine learning, on aime bien supposer que les données sont tirées indépendamment et identiquement suivant une certaine distribution. Ça permet de dire plein de choses sur la théorie. Au poker, les données ne sont absolument pas tirées indépendamment puisqu'on a une dynamique dans le jeu, un historique, etc. Et peut-être pire, elles sont encore moins tirée suivant une distribution unique. Chaque joueur est différent, chaque spot et différent, donc les "distributions sous-jacentes" sont très très variables. Et en plus elles varient suivant des lois et des critères totalement obscurs. Ça, c'est l'horreur absolue. Cela dit, il y a de plus en plus de travaux en apprentissage portant sur ces questions (domain adaptation par exemple) et ce sont des "hot topics" dans la communauté. C'est difficile, mais intéressant et beaucoup de choses restent à faire et pas mal de gens très forts travaillent là-dessus (dans des contextes BEAUCOUP plus simples que le poker, cela dit). Bref, merci beaucoup pour tes retours, je pense qu'il va falloir que je me lance plus profondément dans la littérature côté académique et côté poker (je viens seulement de commander Mathematics of Poker, et je vais ptet commander le volume 1 de Will Tipton, conseillé dans ce thread par tomasssss, et qui a l'air passionant). [edit] Mon optimisme et mon enthousiasme sont quand même à modérer par le fait que j'ai déjà commencer à évoquer avec mon chef d'équipe, dans mon labo, et qu'il m'a tout de suite recadré en me disant que c'était pas dans les thématiques de l'équipe et que donc j'allais pas pouvoir vraiment travailler "officiellement" là-dessus... [/edit] Edited September 25, 2013 by Piconzaz 0 Share this post Link to post Share on other sites
taamer Quand ça change, ça change. Faut jamais se laisser démonter. CPiste Holothurisme : +101 % 7473 posts Posted September 25, 2013 Puisque tu demandes des références jette un oeil á http://www.pokersnowie.com/ C'est un outil d'évaluation GTO plutot bien fait et crédible. C'est le contraire total d'une stratégie exploitante. Je ne vois pas comment un outil d'analyse de mains peut se prévaloir, à ce stade de notre profondeur de calcul gto, de détenir la vérité sur les stratégies gto en no-limit. La taille de la mise modifie, en théorie des jeux, les ranges de bet (sachant les étapes précédentes) et de bluff de celui qui mise et de celui qui call. Chen et Ankenman en abordent les principes dans le jeu [0,1], mais le poker est dynamique et une main qui était en value au flop peut être devenue un bluff river. Si j'ai dix jours, j'évaluerai le poker coach pokersnowie, mais pour l'instant je suis sceptique. @OP : je vais suivre ce thread avec intérêt; mais j'en reste à nos précédents échanges par MP - tu vas voir que la lecture de Mathematics of Poker va apporter quelques pierres à ton édifice. Pour l'aspect système dynamique, deux joueurs qui ajusteraient leur stratégie, je pense qu'on ne peut pas arriver à une structure chaotique du système dynamique engendré, parce l'esprit humain ne sait pas simuler le hasard, et le chaos encore moins. Lire les articles sur les stratégies au chi-fou-mi, version simple d'un jeu où l'on cherche à créer un déséquilibre artificiel des stratégies pour déstabiliser l'adversaire. 1 Share this post Link to post Share on other sites
gill3s CPiste Holothurisme : +19 % 2075 posts Posted September 25, 2013 Mon optimisme et mon enthousiasme sont quand même à modérer par le fait que j'ai déjà commencer à évoquer avec mon chef d'équipe, dans mon labo, et qu'il m'a tout de suite recadré en me disant que c'était pas dans les thématiques de l'équipe et que donc j'allais pas pouvoir vraiment travailler "officiellement" là-dessus... put**n d’intégristes, ça me semblait pourtant un super sujet pour le machine learning le poker. Mais bon, je dois pas être très objectif ... Enfin bon, in si t'as besoin d'un informaticien, notamment pour tout ce qui est data management. 0 Share this post Link to post Share on other sites
Piconzaz Piconzaz (PokerStars.fr) CPiste Holothurisme : +162 % 548 posts Posted September 25, 2013 put**n d’intégristes, ça me semblait pourtant un super sujet pour le machine learning le poker. Mais bon, je dois pas être très objectif ... Enfin bon, in si t'as besoin d'un informaticien, notamment pour tout ce qui est data management. Hahaha. C'est vrai que je suis aussi un peu déçu. Mais je ne peux pas dire que ça soit une grosse surprise malheureusement. La recherche, même académique, même la "plus fondamentale" (quoi que ça puisse vouloir dire...) est financée de plus en plus via des projets d'une durée de 2 à 8 ans, on va dire, en général, et qui sont donc ciblés sur des thématiques et/ou des applications bien précises, décidées à l'avance, au moment de soumettre le projet. En l'occurrence, mon post-doc (donc mon salaire, mes déplacements etc.) est financé sur un de ces projets (européens), d'une durée de 5 ans, et qui a été accepté sur la base d'une thématique relativement large mais quand même assez ciblée. Et il paraît assez peu évident qu'on puisse tordre suffisamment les questions poker pour que ça puisse rentrer dans le cadre du projet, pour lequel le chef de projet, aura des comptes à rendre. Donc oui, c'est super dommage et ça a beaucoup de conséquences très négatives pour la recherche en général, à mon avis, mais c'est comme ça que c'est structuré aujourd'hui, et ce n'est malheureusement pas à mon chef que je peux en vouloir pour ça... Pour en revenir à la choucroute, je crois qu'on en est pas du tout là pour le moment, mais je prend bonne note et te remercie chaleureusement pour ta proposition. J'espère vraiment avoir besoin de toi un jour ! 0 Share this post Link to post Share on other sites
hassbox https://www.twitch.tv/hassou CPiste Holothurisme : +179 % 6657 posts Posted September 25, 2013 (edited) Mon modeste point de vue concernant le post d'OP qui est je trouve plein de véritées : Au poker, une approche consiste a penser que si tu connais les cartes de ton adversaire, alors tu agira toujours de la bonne manière. Le but étant donc d'avoir assez d'information pour connaitre la main de ton adversaire. Dans les faits, tu connais rarement la main de ton adversaire, donc tu lui assigne une range plus ou moins précise. Si tu as assez d'information pour estimer la range de ton adversaire correctement, alors tu agira de façon a maximiser ton Ev contre cette range et il n'y a aucun problème je pense a dire qu'on joue de façon exploitante et que c'est optimal de le faire. Le problème, c'est que si le joueur d'en face arrive a équilibrer ses ranges de sorte que tu ne puisse pas établir une approximation satisfaisante, ou si tu joues pour la premiere fois face un joueur et que tu n'as aucune idée de sa façon de jouer, alors le fait de jouer de façon inexploitable prends du sens, mais je trouve que cette vision des choses ne peux s'appliquer que dans le cas ou tu joues contre un adversaire très fort, ou un adversaire qui applique justement une stratégie inexploitable. Dans ce cas, tu ne fais que limiter les pertes pour arriver a ev=0. Parceque même lorsque tu joue pour la premieres fois contre un vilain, tu peux lui assigner des ranges en considérant qu'il va jouer de façon relativement "standard", ce qui sera le cas de la majorité des vilains inconnus. Je dis peut être que des conneries, mais c'est ce que j'applique quand je joue et je pense que c'est le cas de beaucoup de joueurs. Je parle ici pour le cash game 100 deep et pour les mtt, ensuite en sit and go HU turbo par exemple, il y a surement des choses qui different car ce sont justement des format on l'on a relativement peu d'informations sur ses adversaires, et ou le fait d'assigner des ranges précises est bien plus complexe. Lorsqu'a 9bb deep, le type push en HU, c'est peut petre plus compliqué de lui assigner une range avec précision que lorsqu'un mec te fait un 3barrel et qu'il est polarisé. Ce qui explique peut être le fait que jouer de façon inexploitable est ev+++ dans les formats hyper turbo, parceque le type en face fera toujours des erreurs s'il ne suit pas la même stratégie, ce qui nous fait gagner plus d'ev que les maigres informations que l'on a sur sa façon de jouer. Je dis peut être que de la m**de, mais j'en suis conscient Edited September 25, 2013 by hassou 0 Share this post Link to post Share on other sites
tomasssss CPiste Holothurisme : +81 % 649 posts Posted September 25, 2013 Bref, merci beaucoup pour tes retours, je pense qu'il va falloir que je me lance plus profondément dans la littérature côté académique et côté poker (je viens seulement de commander Mathematics of Poker, et je vais ptet commander le volume 1 de Will Tipton, conseillé dans ce thread par tomasssss, et qui a l'air passionant). A noter que le tipton se veut un outil pratique et accesible pour le joueur de poker, tu n'y trouveras pas les developpements mathemathiques que tu pourrais attendre en tant que chercheur. Par contre il presente pas mal de resultats interessants come par exemple pour des jeux simples qui sont aujoủrdhui parfaitement resolus en stategie optimale et "maximaly exploitive" : le jeu du push/fold preflop, du minraise/push preflop. + toute une partie postflop. MOP est beaucoup plus pousse sur le plan maths, c'est un livre pour matheux qui est -de mon point de vue- beaucoup moins directement utile pour le jeu (mais je ne suis pas mathematicien). bon courage! 0 Share this post Link to post Share on other sites
sirdji CPiste Holothurisme : +19 % 2412 posts Posted September 25, 2013 Tout d'abord, tres bon post. Je suis d'accord avec ce que je quote ci-dessus, je préfere largement développer une approche exploitante" que de me concentrer sur une approche "Game Theory perfect". La plupart des joueurs compétents raisonnent de maniere récursive: si on ne connait pas la stratégie adverse avec précision, on peut l'estimer avec une probabilité de succes de plus en plus importante au fur et á mesure qu'on développe son expérience contre des joueurs de profils différents. Il y a effectivement autant de stratégies que de joueurs mais il y a aussi de grandes "familles" de stratégie basées sur la psychologie des adversaires et leur degré de technicité. Parfois en observant comment une personne joue sur une seule street on peut en déduire beaucoup de choses pour la suite et "reconstruire" l'ensemble de sa stratégie sur tous les spots importants. Pour y parvenir, il faut accumuler dans sa tete une grosse base de données de styles de jeu et de plays associés afin d'y recourir quand le cas se présente. Garde a l'esprit aussi que concretement le but au poker n'est pas d'exploiter l'adversaire á la perfection mais de le faire mieux qu'il ne le fait lui-meme contre nous. Ca implique donc une analyse poussée basée sur l'expérience et l'observation ainsi qu'une conscience aigue de l'image qu'on projette et de comment les autres vont en déduire une vision de notre propre stratégie. Hey salut manub, Je voulais te demander ton avis à toi le pro. On entend très souvent Galfond ou même Sauce être obsédé par la construction de ranges super équilibrées dans le but d'être le moins exploitable possible. J'ai beaucoup de mal à comprendre pourquoi, puisque d'un point de vue théorique si t'es toujours équilibré ton EV vaut 0. En plus, à ce moment là, le métagame n'a plus aucun sens. Bref, Evidemment, je dois avoir tort quelque part, vu que ce sont indéniablement de grands joueurs, mais je n'arrive pas à trouver où? Peux-tu m'éclairer? 0 Share this post Link to post Share on other sites
mad_max maxkitu (PokerStars.fr) CPiste Holothurisme : +4 % 5313 posts Posted September 25, 2013 Ben déjà galfond il joue de plus en plus de Omaha et ce depuis un moment, et le Omaha c'est que des maths comparé au NLHE. Ensuite, cette histoire d'ev à 0 est archi-fausse, pour que ton ev soit à 0 il faut que ton adversaire joue pareil que toi, et ce pareil c'est le "parfaitement équilibré" en GTO. Si il joue pas comme ça, il se fait own. Et enfin, les mecs font évidemment beaucoup de HU (la où tu gagnes le plus je pense, vu que tu peux dépouiller un mec jusqu'à l'os et il est rien que pour toi), là ou le GTO s'applique le mieux (vu que la base du truc c'est de raisonner en "paire", càd deux joueurs). Tu vas galérer ta race rien qu'à trouver les ranges d'open par position ainsi que les ranges de 3bet/5bet sur une table de FR, et en plus t'as tellement de profils à la table que même si t'es parfaitement équilibré tu rates un max de spots monstrueux (et donc t'as même pas envie d'être parfaitement équilibré, tu cherches juste à dépouiller le fish). C'est beaucoup moins vrai en HU et dans une certaine mesure en SH. PS : évidemment j'suis pas pro, mais je te donne des pistes. 0 Share this post Link to post Share on other sites
Rissb CPiste Holothurisme : +138 % 1063 posts Posted September 25, 2013 (edited) Thread particulièrement intéressant à lire! Il m'a même donné envie de me plonger dans la lecture de MOP!!!! Je crois que tout le monde est d'accord sur le fait qu'il est largement préférable d'avoir un jeu exploitant qu'un jeu inexploitable. GTO semblant être réservé au high stakes. Pourtant j'ai l'impression qu'on fonctionne à l'envers (même si ça marche). Si on adapte notre stratégie en fonction de vilain, on l'adapte par rapport à quoi? Par rapport à une conception propre à chacun de "son gto". Je rejoins Hassou sur ce point où il explique qu'on a tous une stratégie de base développée sur l'ensemble des joueurs de notre limite par exemple. Mais d'un point de vue purement théorique, un joueur de poker devrait débuter systématiquement une session par une stratégie GTO et dévier à la seule condition d'exploiter un adversaire particulier en tenant compte des stats, read, dynamique, histo,... Je veux dire qu'une approche GTO devrait être la base pour tout joueur et ce n'est que lorsqu'on définit un leak adverse qu'on peut alors dévier vers une stratégie exploitante contre ce vilain particulier. Et pour paraphraser encore une fois Hassou : Je dis peut être que de la m**de, mais j'en suis conscient Edited September 25, 2013 by Brissiaud 0 Share this post Link to post Share on other sites
sirdji CPiste Holothurisme : +19 % 2412 posts Posted September 25, 2013 Ben déjà galfond il joue de plus en plus de Omaha et ce depuis un moment, et le Omaha c'est que des maths comparé au NLHE. Ensuite, cette histoire d'ev à 0 est archi-fausse, pour que ton ev soit à 0 il faut que ton adversaire joue pareil que toi, et ce pareil c'est le "parfaitement équilibré" en GTO. Si il joue pas comme ça, il se fait own. Et enfin, les mecs font évidemment beaucoup de HU (la où tu gagnes le plus je pense, vu que tu peux dépouiller un mec jusqu'à l'os et il est rien que pour toi), là ou le GTO s'applique le mieux (vu que la base du truc c'est de raisonner en "paire", càd deux joueurs). Tu vas galérer ta race rien qu'à trouver les ranges d'open par position ainsi que les ranges de 3bet/5bet sur une table de FR, et en plus t'as tellement de profils à la table que même si t'es parfaitement équilibré tu rates un max de spots monstrueux (et donc t'as même pas envie d'être parfaitement équilibré, tu cherches juste à dépouiller le fish). C'est beaucoup moins vrai en HU et dans une certaine mesure en SH. PS : évidemment j'suis pas pro, mais je te donne des pistes. Nan mais fais pas le foufou des maths avec moi. Pour exploiter son adversaire, faut adopter une stratégie qui dérive de la stratégie inexploitable, et donc devenir exploitable à son tour. Point barre. Essaie pas d'embrouiller le monde avec ton adversaire joue pareil ou quoi. -3 Share this post Link to post Share on other sites
tomasssss CPiste Holothurisme : +81 % 649 posts Posted September 26, 2013 Hey salut manub, Je voulais te demander ton avis à toi le pro. On entend très souvent Galfond ou même Sauce être obsédé par la construction de ranges super équilibrées dans le but d'être le moins exploitable possible. J'ai beaucoup de mal à comprendre pourquoi, puisque d'un point de vue théorique si t'es toujours équilibré ton EV vaut 0. En plus, à ce moment là, le métagame n'a plus aucun sens. Bref, Evidemment, je dois avoir tort quelque part, vu que ce sont indéniablement de grands joueurs, mais je n'arrive pas à trouver où? Peux-tu m'éclairer? Salut, tout simplement parce que si tu joues gto ( ce qui est impossible a l hêure actuelle en nlhe parce qu on n'a pas la solution, et le sera probablêment touours pour un humain) tu ne peux pas perdre. Ton ev sera de 0 uniquement contre un adversaire qui joue gto egalement, contre toute strategie deviant du gto tu seras ev+. d'ou l intểret de s'approchẻr du gto. et en effet le metagame perd alors de son impỏrtance ( mais ceci est valable uniquement pour des matches entre trés fórts joueurs) 0 Share this post Link to post Share on other sites
tomasssss CPiste Holothurisme : +81 % 649 posts Posted September 26, 2013 Nan mais fais pas le foufou des maths avec moi. Pour exploiter son adversaire, faut adopter une stratégie qui dérive de la stratégie inexploitable, et donc devenir exploitable à son tour. Point barre. Non, pour reprendre les termes de mad max, si tu joues GTO et que ton adversaire ne joue pas gto, il se fait own. T'as pas besoin de t'adapter pour gagner, par contre tu peux t'adapter pour max ton ev ( et dans ce cas tu devies aussi du gto), c'est la difference entre "optimal play"(gto) et "maximaly exploitive play". Par ex pour un jeu simple comme le púsh/fold preflop, le gto est connu, cad que pour chaque main on connait le stack size maximun pour lequel le push ou le call est bon (une table existe) ; si tu joues au push/fold avec cette strategie tu ne peux pas perdre, par contre tu mãx pas ton ev contre un joueur qui ne joues pas gto. par example si le gars ne joue que AA, il sera correct de púsh any two et de fold toutes les mains sauf les as (poủr présque toutes les stack sizes). Tu peux raisonner comme cela pour les situations post flop aussi meme si c est bcp plus complexe. 1 Share this post Link to post Share on other sites