Les robots savent bluffer les hommes. Voilà en substance l'information que relaient les médias du monde entier depuis hier, journée durant laquelle Libratus a porté l'estocade face à ses quatres adversaires humains. Cette victoire de l'intelligence artificielle sur des joueurs de poker, aussi inattendue qu'incontestable, ouvre la porte à de nombreux développements, débats et réflexions.
Tuomas Sandholm
Depuis les premiers pas de la recherche sur l'intelligence artificielle, les victoires sur les joueurs humains ont permis de mesurer les avancées. Les échecs ont joué ce rôle en 1997, puis le Jeopardy en 2009, et enfin le go l'an dernier. Le poker représente un défi bien plus difficile que tous ces jeux, car il requiert de la machine des décisions extrêmement complexes basées sur des informations incomplètes. Elle doit gérer des bluffs, des slowplays et tout un tas d'autres ruses.

Il y a deux ans, la victoire de Doug Polk et sa bande sur Claudico n'avait pas bénéficié pareil relais dans la presse généraliste. Et c'est bien naturel. À dire vrai, peu d'observateurs s'attendaient à ce que le travail des chercheurs de la Carnegie Mellon University produise dès cette année un champion capable de rivaliser avec les meilleurs joueurs de heads up du monde. Or Libratus ne s'est pas contenté de se mettre au niveau de Dong Kim, Jason Les, Jimmy Chou et Daniel McAulay. Le logiciel a au contraire mis un point d'honneur à martyriser le quatuor et à écarter l'éventualité d'un "match nul statistique". Cette fois, le score est sans appel et le professeur Tuomas Sandholm, l'un des papas de Libratus, ne souffre aucune contestation lorsqu'il le qualifie de "résultat hautement significatif sur le plan statistique".
Aucune contestation, ou presque. Dans la communauté, quelques voix s'élèvent bien pour regretter les modalités du face-à-face : un confort de jeu loin d'être optimal pour les représentants de l'humanité (un soft digne des années 90, des phases de réflexion parfois interminables de la part de Libratus...) ; des règles à l'avantage de la machine (comme la remise à niveau du stack à 200bb après chaque main) ; un casting de joueurs discutable avec (par rapport au match face à Claudico) deux nouveaux venus inattendus et deux anciens qui n'avaient pas brillé il y a deux ans... manub fait justement partie de ces observateurs qui s'efforcent de mettre un bémol au résultat du match :
manub
Si vous deviez constituer une équipe de quatre joueurs pour la belle, vous prendriez qui ? Personnellement je miserais sur Doug Polk, Alex Luneau, Daniel Cates et Ben Sulsky. Et là on verrait ce que Libratus a vraiment dans le ventre.
On partirait aussi sur un format avec 30 jours pour jouer les 120 000 mains à domicile et aux horaires librement choisis, avec une distribution des mains miroirs de manière désordonnée sur tout l'échantillon, et avec une interface très similaire à PokerStars ou Full Tilt.
Je peux me tromper, mais je pense qu'avec ces conditions de jeu et en enlevant le "stack reset" à 200bb, l'humanité récupèrerait quelques années de sursis.

Reste qu'au terme de ces vingt journées de compétition et de ces sessions quotidiennes de onze heures de jeu, aucun des joueurs présents à Pittsburgh n'est parvenu à dégager un bénéfice — même symbolique — face à ce logiciel développé à grands renforts de millions de dollars. Certains ont bien fait de la résistance et expérimenté avec succès de nouvelles stratégies, mais Libratus — qui après chaque session était connecté à un super ordinateur pour revoir sa copie — a systématiquement réussi à parfaire son apprentissage et à s'adapter aux ajustements des pros. Au terme des 120 000 mains prévues, ces derniers essuient donc un déficit global de 1,7 million de jetons, soit plus du double de l'ardoise enregistrée par Claudico en 2015.
La marge est plus que suffisante pour que la presse du monde entier s'empresse aujourd'hui d'ajouter le poker à la liste des disciplines "résolues" au côté des échecs et du go. D'aucuns objecteront que l'affrontement ne concernait que le cas bien particulier du heads up, et que l'ajout de protagonistes à la table représente une équation encore insoluble pour les champions de l'intelligence artificielle. Et ils auront parfaitement raison, comme il convient de le souligner face à certains raccourcis rapides.
Ces autres configurations de jeu représenteront d'ailleurs, à n'en pas douter, quelques-uns des prochains grands défis de la communauté scientifique. Tout en gardant bien sûr à l'esprit que le poker ne constitue pas une fin en soi mais un simple révélateur des progrès réalisés, lesquels devraient à terme trouver des applications diverses et variées sur les terrains militaire, financier, spatial ou encore médical. C'est d'ailleurs tout le paradoxe de ce pas de géant : soulever autant de motifs de réjouissance que de sources d'inquiétude.
L'un des papas de Libratus
Nous n'avons pas expliqué à Libratus comment jouer au poker. Nous lui avons donné les règles et demandé d'apprendre par lui-même. La machine a d'abord tâtonné, puis au fil de ses milliards de mains disputées elle s'est montée capable de revoir son approche du jeu et d'établir une stratégie gagnante.
Jason Les
Libratus s'est avéré beaucoup plus fort que ce que nous imaginions. C'est un peu démoralisant. Si vous affrontez un humain et perdez, vous pouvez arrêter de jouer. Ici il nous fallait continuer de nous lever chaque matin pour prendre une déculottée pendant onze heures. C'est une expérience émotionnelle très différente et à laquelle personne n'est habitué.
J'arrive un peu après la bataille (une de mes grandes spécialités) et ai suivi toute cette histoire de loin.
Mon humble avis - lequel n'a pas changé malgré ce résultat récent - est que les meilleurs joueurs feront encore pas mal de résistance face aux meilleurs programmes et autres bots en NL Holdem. Pour une raison essentielle : avant d'être un jeu de stratégie et un jeu mathématique, le NLHE est avant tout, surtout, d'abord et essentiellement un jeu mental et un jeu d'adaptation.
En d'autre terme, c'est un jeu où le QE (quotient émotionnel) est plus important encore que le QI, la puissance de calcul et autres capacités analytiques. C'est d'ailleurs, probablement, l'une des raisons pour lesquelles aucun des meilleurs joueurs d'échecs au monde n'a cartonné durablement au poker.
Ce qui fait la différence dans ce jeu de m.., pardon dans ce jeu si passionnant et populaire, c'est moins nos capacités stratégiques (lesquelles ne sont pas négligeables pour autant) que nos capacités d'adaptation et de résistance mentale.
Pour schématiser, au poker, il vaut mieux être un stratège moyen avec un très bon mental qu'un très bon stratège avec un mental moyen. Sur le long terme, c'est le premier qui fera a différence. L'idéal étant évidemment d'être le meilleur possible dans les deux domaines...
Entre les meilleurs joueurs, ce qui fera la différence en terme de winrate, c'est tout ce qui a trait au metagame. Mais c'est aussi la résilience, la capacité à encaisser les coups durs, à jouer durablement son A game, à ne pas tilter.
Face à l'intelligence artificielle, l'homme n'a strictement aucune chance pour tout ce qui a trait à la puissance de calcul, l'aspect mathématique et stratégique du jeu. Idem en ce qui concerne la résilience et la capacité à jouer son A game en permanence.
L'IA est un monstre froid qui ne connaît pas le tilt, ne ressent pas la frustration, l'impatience, l'injustice et qui ne sera jamais agacé par sa copine parce qu'elle lui a demandé de descendre acheter une baguette juste après avoir pris dans la face un énorme bad beat. Bref, l'ordi lui, joue toujours à son meilleur niveau possible et ne commet a priori pas d'erreurs de calculs.
Manque de bol pour nos amis les microprocesseurs (et heureusement pour nous), il y a un domaine où l'humain conserve encore un assez net avantage. Cerise sur le gâteau, c'est sans doute, avec la résilience, la qualité la plus importante au poker. On appelle cela L'EMPATHIE. Dans ce domaine, tous les meilleurs superordinateurs de la planète ont encore pas mal de progrès à faire.
Le jour où une IA pourra faire preuve de la même capacité d'adaptation, de la même créativité, de la même capacité à se mettre à la place d'autrui ou à optimiser le metagame, ce sera fini du genre humain. Ce n'est pas encore le cas. Car ce qui fait la force de l'ordi au poker est aussi sa faiblesse : l'ordi n'a pas de sentiments, il ne ressent rien.
Pour le dire autrement, le jour où une Intelligence Artificielle aura un sens de l'humour supérieur aux homo sapiens les plus drôles (Anne Roumanoff par exemple), les joueurs de poker pros onlines pourront illico changer de boulot ou bifurquer vers les cercles et autres casinos...
S'agissant plus précisément de ce duel Libratus-humains, il me semble quand même très discutable. Pour au moins trois raisons :
1/ D'après ce que j'ai pu comprendre, Libratus met trois plombes à jouer. Apparemment, il lui arrivait de réfléchir plusieurs minutes avant de prendre sa décision. C'est juste grotesque et je me demande bien comment on a pu accepter cela ! Cela ne correspond absolument pas au rythme de jeu tel qu'il existe online où qu'un type normalement constitué peut encaisser sans que ça n'entame sa concentration et donc son A-Game.
Perso, si j'affronte un fish qui tank une minute preflop, puis une minute au flop, à la turn et à la river, je vais sit out au bout de trois mains. Ou alors, il faut vraiment que ce soit la quiche du siècle et qu'il y ait pas mal de pepettes en jeu !
Vous en connaissez beaucoup vous des joueurs normalement constitués capables d'accepter un rythme de jeu aussi lent sans allumer leur télé pour foutre Columbo sur TV Breizh, sans lire l'Equipe et leurs mails en même temps, tout en ouvrant Pornhub dans une petit fenêtre, histoire d'installer une petite ambiance tamisée dans la pièce ??!! Bref, sans perdre le fil du jeu et se concentrer sur autre chose...
Pour moi, même le supplice de Tantale ou un concert live de la Castafiore ressemble à une aimable plaisanterie comparés aux conditions de jeu qu'on dû se coltiner nos quatre cobayes.
2/ Y a un autres gros problème dans cette histoire. C'est que notre Libratus se faisait visiblement aider tous les soirs par des joueurs de poker en chair et en os pour l'aider à résoudre ses faiblesses et à mieux s'adapter. Ce qui du coup fausse complètement le duel. Ce n'est plus un duel entre l'homme et la machine mais plutôt entre l'homme et la machine aidée par l'homme. Ce n'est plus du tout pareil !
3/ J'ai tout de même un gros doute sur le fait que les quatre joueurs sélectionnés fassent parties de la crème de la crème en HU. Le poker a ceci de singulier par rapport aux autres sports ou jeux : un débutant peut battre le meilleur joueur du monde (sur le court terme). Et les meilleurs joueurs ne sont pas forcément les plus célèbres ou les plus médiatisés...
Enfin, pour nuancer encore un peu plus le résultat final : un humain donnera plus facilement le meilleur de lui-même et jouera plus aisément son A-game en risquant son propre argent plutôt qu'en play money... Jouer au poker en play money, c'est un peu comme jouer au golf sans trou ou au tennis sans filet. On enlève un élément fondamental du jeu... et pas mal d'intérêt du coup.
Pour conclure ce pavé indigeste, il me semble que 5 conditions devraient a minima être réunies pour que ce type de duel soit crédible et représentatif :
1/ L'ordi doit adopter un rythme de jeu équivalent à ce qui se pratique habituellement online. Quelques secondes par coup, avec possibilité d'utiliser ponctuellement le timer.
2/ Aucune aide humaine extérieure pour l'IA.
3/ Idéalement, un duel sur 500 000 mains (comme le détaille ALex Luneau dans un récent et excellent article, la variance peu être énorme, même sur 100 000 mains...
https://www.winamax.fr/blog_team_blog-pour-une-saine-approche-de-la-variance-30072?param=blog-pour-une-saine-approche-de-la-variance-30072). Le tout face à 10 joueurs pour avoir un sample plus significatif. Et des temps de jeu raisonnables pour que ce soit supportable pour un humain.
4/ On joue 100 BB deep au départ, la profondeur de base online. Si le jeu devient trop deep (par ex 500 BB), on ouvre une nouvelle table. Les meilleurs humains ont une connaissance stratégique bien plus limitée du jeu ultra deep car ils le pratiquent rarement.
5/ On choisit les meilleurs winrates onlines en NL2000 ou NL1000 pour sélectionner les meilleurs joueurs humains. Ce qui était plus aisé du temps où feu PokerTableRatings sévissait encore. Mais bon, peut-être que les rooms ont ça en magasin...
Bon, je vous laisse, de toute façon tout le monde s'en fout et Columbo va commencer.
PS : pour Anne Roumanoff, c'était censé être de l'humour...
Partager ce message
Lien à poster
Partager sur d’autres sites