Bonjour à tous,   Pour commencer ce post, j'aimerais dire quelques mots sur mon profil et mes motivations. Je suis chercheur (en postdoc) dans le domaine de l'apprentissage automatique (machine learning). Je m'intéresse notamment aux aspects statistiques et computationnels de l'apprentissage. Je ne connais pas très bien la littérature sur le poker mais me pose pas mal de questions et aimerais avoir vos retours et engager une discussion sur le sujet. Si je dis des choses erronées, je vous serai très reconnaissant de me le faire remarquer. Même si j'ai un certain souci de produire des choses utiles en pratique, mon post va probablement être assez théorique, et destiné à des gens qui s'intéressent avant tout à ces aspects, et en particulier aux gens ayant des notions assez avancées en statistiques.   Je connais relativement peu la théorie des jeux mais je connais grossièrement les grandes lignes. Le point de vue de la théorie des jeux est à mon avis d'un intérêt très limité pour le poker. La valeur d'une stratégie est évaluée par l'ev dans le pire cas, c'est à dire si le (ou les) autre joueur répond de manière optimale à ta stratégie (qu'on suppose que l'adversaire connaît, donc). La stratégie optimale est alors celle qui maximise l'ev dans ces conditions. Il se trouve qu'elle coïncide avec un point d'équilibre de Nash (s'il existe, et il peut y en avoir plusieurs) et a comme propriété (dans ce cas) de faire que chaque joueur perd de l'ev s'il s'éloigne unilatéralement de sa stratégie à l'équilibre. C'est donc un point de vue très pessimiste, qui vise à faire "le moins pire possible dans le pire cas". Pour modérer mon propos, il faut admettre que souvent, ces stratégies optimales ne sont pas si mauvaises, même lorsque l'adversaire ne répond pas optimalement. Pour autant, le point de vue de départ est à mon avis trop pessimiste intrinsèquement. En plus, d'un point de vue "mathématique", la recherche de ces stratégies optimales (au sens théorie de jeux) est complexe et ne peut se faire exactement que pour des jeux assez simples (beaucoup plus que le poker ne l'est en réalité). En revanche, la stratégie à l'équilibre, si elle existe et si on peut la trouver, a le bon goût d'être valable universellement, indépendamment de la stratégie adverse.   À "l'opposé", on a la recherche de stratégie optimalement exploitantes. Étant donné une stratégie adverse, on cherche la stratégie qui maximise les gains contre celle-là. Si l'autre joue la stratégie optimale au sens de la théorie des jeux, alors il faut soi-même utiliser cette stratégie à l'équilibre. Sauf qu'en pratique, dans la vraie vie, personne ne la connaît et/ou n'est capable de l'appliquer. Tout le reste du temps, il existe des stratégies qui permettent d'avoir de meilleurs résultats. En ce sens, la recherche de ces stratégies est beaucoup plus intéressante et proche de ce qu'on recherche au poker. Un point positif, d'un point de vue mathématique, est que étant donnée une stratégie donnée, chercher la stratégie exploitante optimale est un problème beaucoup beaucoup plus simple que la recherche de stratégie à l'équilibre.   Pour l'instant, corrigez-moi si j'ai tort, ou si j'ai été imprécis, mais tout indique qu'il vaudrait mieux s'intéresser aux stratégies exploitantes et laisser de côté la théorie des jeux. Cela dit, il y a un problème majeur avec les stratégies exploitantes : leur recherche suppose de connaître la stratégie adverse, à un instant donné.   En pratique, on ne connaît jamais la stratégie adverse. Il faut donc essayer de l'estimer. C'est un problème qui peut être vu formellement comme un pur problème d'estimation statistique. Et malheureusement, un problème extrêmement compliqué. A priori, pour caractériser la stratégie adverse, il faut estimer un assez grand nombre de paramètres. En plus, les échantillons (les hh, principalement) qu'on a à disposition, pour faire de l'estimation, sont la plupart du temps de taille très faible. Par ailleurs, il y a autant de stratégies que de joueurs. Et pire, pour un joueur donné, la stratégie n'est pas stationnaire mais évolue au cours du temps. Il faut donc prendre en compte énormément de paramètres (à estimer eux-même), sur la dynamique en cours, la capacité de l'adversaire à s'adapter, par exemple, pour pouvoir estimer sa stratégie à un temps donné.   D'un point de vue purement statistique, c'est vraiment atrocement compliqué. Mais c'est à mon avis "la voie qu'il faudrait suivre, dans l'idéal". Côté espoirs, l'essor récent de l'apprentissage statistique nous fournit des outils tout à fait pertinents pour résoudre ce genre de problèmes. Si jamais certains connaissent un peu le sujet, l'apprentissage en ligne (notamment les bandits) me paraissent pouvoir être assez adaptés, pour ces problèmes d'estimation. Je ne veux pas rentrer plus dans les détails pour le moment, mais je pourrai essayer par la suite, le cas échéant.   J'aimerais donc avoir votre point de vue sur ce pavé. Mieux, j'aimerais avoir des références sur ces sujets, si vous en avez. Et éventuellement, si d'autres gens sont intéressés, on pourrait commencer à y réfléchir plus précisément, ensemble.