Ученые просчитали покер

<b>Рис. 1.</b> Игра хедз-ап (heads-up) в покер

Рис. 1. Игра хедз-ап (heads-up) в покер. За столом двое игроков и крупье, сдающий им карты. Фото с сайта pokernews.com

В начале 2015 года в журнале Science вышла статья, в которой было объявлено об успешном завершении работы компьютерной программы, просчитывавшей одну из версий покера — хедз-ап в лимитном техасском холдеме. Программа научилась принимать правильное решение в каждом из примерно 3,19×1014 возможных состояний игры. Найденная таким образом стратегия на длинной дистанции должна обыгрывать остальные стратегии. Одним из результатов анализа стало доказательство того, что дилер имеет преимущество перед вторым игроком. Авторы статьи предлагают ведущим профессиональным игрокам в покер опробовать стратегию на практике и убедиться в ее оптимальности.

Техасский холдем (texas hold'em) — самая популярная разновидность покера. Игра ведется стандартной колодой из 52 карт. В начале каждого розыгрыша игроки получают по 2 карты (карманные карты). Они смотрят на свои карты, после чего происходит первый раунд торговли. Игрока, который начинает торговлю, называют дилером (или игроком на кнопке, см. Button (poker)), после каждого розыгрыша дилером становится следущий по кругу игрок. Во время торговли игрок может повысить ставку (raise), уравнять ставку соперника (call) или отказаться от дальнейшего участия в розыгрыше и сбросить карты (fold). В итоге после раунда торговли каждый оставшийся в розыгрыше игрок поставил на кон одну и ту же сумму денег. Далее для всех открываются три общие карты (flop), после чего происходит второй раунд торговли. После этого открывается еще одна карта (turn), происходит третий раунд торговли. Наконец, открывается пятая общая карта (river), и происходит последний, четвертый раунд торговли. Если в какой-то момент в игре остается только один игрок, он забирает весь банк. Если после четвертого раунда торговли в игре остается более одного игрока, то они вскрывают свои карманные карты и сравнивают получившиеся 5-карточные комбинации, которые каждый может построить из личных и общих карт. Тот, у кого комбинация лучше, забирает банк.

Комбинации в покере

Покерные комбинации

Комбинация составляется из двух карманных карт, которые раздаются игрокам в начале игры, и пяти общих карт, которые выкладываются на стол в процессе игры. В комбинации участвуют пять карт из этих семи. Комбинации перечислены по убыванию старшинства.

Роял-флеш (royal flush) — частный случай стрит-флэша, старший из всех возможных, состоит из 5 старших (туз, король, дама, валет, десять) карт одной масти.

Стрит-флеш (straight flush) — любые пять карт одной масти по порядку.

Каре (four of a kind) — четыре карты одного достоинства.

Фул-хаус (full house) — тройка и пара.

Флеш (flush) — пять карт одной масти.

Стрит (straight) — пять карт по порядку любых мастей.

Сет (three of a kind, set) — три карты одинакового достоинства.

Две пары (two pairs) — две пары карт.

Пара (pair) — две карты одного достоинства.

Старшая карта (high card) — у игрока нет ни одной из перечисленных выше комбинаций.

Хедз-ап (heads up) означает, что играют только два игрока. Лимитный покер — это версия игры, в которой ставки можно повышать на фиксированную величину, причем повышать ставку можно не более чем заранее оговоренное число раз. Поэтому лимитный техасский холдем — это конечная игра. Последовательные игры в теории игр принято задавать с помощью деревьев. Вершинам дерева будут соответствовать различные состояния игры. Каждой вершине приписано имя игрока, которому в этой вершине принадлежит ход. Ребрам, исходящим из этой вершины, соответствуют действия, которые может совершить этот игрок. Одним из участников игры является «природа» — так в теории игр называют искусственного игрока, выполняющего роль генератора случайных чисел. «Природа» случайным образом решает, какую карту сдать игрокам или открыть на столе.

Последовательные игры можно разделить на два вида: игры с совершенной информацией (см. Perfect information) и игры с несовершенной информацией. В играх с совершенной информацией каждый игрок всегда знает, в какой вершине дерева он находится и что происходило до этого. В играх с несовершенной информацией игрок может быть не уверен в том, в каком состоянии находится игра. Покер — пример игры с несовершенной информацией: игрок, не знает, какие карты находятся на руках у его соперника. Каждый может наблюдать общие карты и совершаемые действия в момент торговли, однако карты соперника в момент торговли известны не будут.

Любую конечную последовательную игру с совершенной информацией можно просчитать с конца, используя алгоритм обратной индукции. Рассмотрев одну подыгру самого последнего уровня (то есть такую подыгру, на которой после принятия любого решения игра заканчивается и игроки подсчитывают полученные платежи), можно найти оптимальное действие игрока, которому принадлежит ход на этой подыгре. Далее точно так же можно найти оптимальные действия игроков на всех подыграх последнего уровня. После этого, зная, как будут вести себя рациональные игроки на подыграх последнего уровня, можно перейти к анализу игр предпоследнего уровня, и так далее. Рано или поздно, точно получится добраться до подыгры, совпадающей со всей игрой, после чего можно найти в ней оптимальное действие игрока, которому принадлежит первый ход. Таким образом, будет найдено оптимальное поведение всех игроков в любой возможной ситуации и будет выяснено, чем заканчивается игра при правильных действиях всех игроков. Именно так в 2007 году были просчитаны шашки — оказалось, что при правильной игре обеих сторон в шашках партия обязательно закончится вничью (J. Schaeffer et al., 2007. Checkers is solved).

Покер меньше шашек по количеству возможных состояний игры. Однако покер, в отличие от шашек, является игрой с несовершенной информацией. Это делает невозможным прямое применение алгоритма обратной индукции: если игрок в какой-то момент не знает, в какой из вершин он находится, то он не сможет найти однозначно оптимальное решение. Тем не менее такую игру можно переписать в виде матрицы (нормальная форма игры): по горизонтали можно выписать все стратегии первого игрока, по вертикали — все стратегии второго игрока, после чего в полученной матрице можно найти равновесие Нэша. Теоретически. Здесь нас поджидает еще одна проблема: полученная матрица для покера будет очень большой. Сложность нахождения равновесия Нэша с помощью алгоритма линейного программирования растет экспоненциально при росте количества состояний игры, поэтому для сложных игр вроде покера метод неприменим. Приходится отказаться от идеи прямого сведения дерева к матрице. Вместо этого авторы используют специальную модификацию критерия Сэвиджа (см. Regret (decision theory)), предназначенную для решения игр с несовершенной информацией за линейное время от числа состояний игры. Алгоритм просматривает с конца информационные множества и приписывает им тот или иной штраф в зависимости от сыгранной стратегии. После этого алгоритм минимизирует набранный штраф.

Еще одна трудность в решении покера состояла в том, что в нем ожидаемые платежи игроков выражаются не обязательно целыми числами — сравните с шашками, в которых возможны всего 3 исхода! Поскольку речь идет о вычислении платежей компьютером, то авторам пришлось приближать бесконечные десятичные дроби с заданным уровнем точности ε. Но тогда нельзя использовать стандартное определение равновесия Нэша, ведь погрешность вычисления может помешать ответить на вопрос, выгодно ли кому-либо из игроков отклоняться от того или иного профиля игры. Авторы используют концепцию ε-равновесия Нэша, в соответствии с которой профиль стратегий называется ε-равновесием Нэша, если ни один из игроков, отклоняясь от этого профиля стратегий, не может увеличить свою полезность более чем на ε. В частности, любое равновесие Нэша является ε-равновесием Нэша.

Наконец мы подошли к результату, который получили авторы статьи в Science. Для некоторого достаточно малого ε авторы предъявили ε-равновесие Нэша (ε настолько мало, что человеческой жизни не хватит на проверку отличия ε-равновесия Нэша от равновесия Нэша). На рис. 2 приведены действия игроков на первом ходу в этом профиле стратегий. Слева для любой стартовой комбинации двух карт указаны первые действия дилера (зеленая клетка — «повышать», красная — «сброс»), справа приведен ответ второго игрока, если дилер на первом ходу повысил ставку (зеленый цвет — «повышать», синий — «уравнивать», красный — «сброс», смешанные цвета соответствуют возможности смешивать с различными вероятностями несколько своих стратегий). В этом профиле дилер очень часто блефует — повышает ставку с плохой картой, а второй игрок достаточно часто вынужден сбрасывать свою карту, не будучи в силах распознать, блефует ли дилер. За счет этого дилер на длинной дистанции обыгрывает второго игрока.

Рис. 2. Оптимальные действия игроков на первом ходу

Рис. 2. Оптимальные действия игроков на первом ходу. Каждая клетка таблицы соответствует одному из 169 вариантов карманной пары: в каждой масти 13 карт, при этом в покере конкретная масть не важна, а важно лишь, одной ли масти карманные карты (это увеличивает шансы на составление флеша); одномастным парам соответствуют клетки над главной диагональю (идущей из левого верхнего угла в правый нижний) таблицы (Suited), разномастным — клетки под этой диагональю. Цветами обозначены действия игроков: красный — сбросить карты, синий — уравнять ставку, зеленый — поднять ставку; смешанные цвета соответствуют сложным вариантам, при которых игрок может с некоторыми вероятностями принимать разные решения. Слева — первый ход первого игрока, справа — ответный ход его оппонента в том случае, если первый игрок поднял ставку. Рисунок из обсуждаемой статьи в Science

В рассматриваемой нами игре могут существовать и другие ε-равновесия Нэша. Однако следует иметь в виду, что в игре с нулевой суммой, которой и является покер, все равновесия Нэша приносят игрокам одинаковые платежи. Поэтому нахождение одного равновесия Нэша означает, что найдены стратегии, используя которые игроки могут гарантировать для себя наилучший возможный результат.

Можно ли заработать, играя найденную стратегию? Да, если уметь воспроизводить действия, которые предписывает совершать стратегия в каждой позиции. Вряд ли на это будет способен человек — не хватит памяти. А вот против компьютера играть в лимитный хедз-ап теперь бесполезно. Скорее всего, это означает, что скоро лимитный хедз-ап покер пропадет с покерных сайтов — будет очень сложно проверять, что человек не использует специальные программы, помогающие найти оптимальные ответы. Однако игрокам в покер расстраиваться рано. Даже если про все вариации лимитного покера однажды всё станет известно, останется безлимитный покер (можно делать ставки любого размера), который не является конечной игрой. Из-за этого решить безлимитный покер модификациями алгоритма обратной индукции уже вряд ли получится...

Источник: M. Bowling, N. Burch, M. Johanson and O. Tammelin. Heads-up limit hold’em poker is solved // Science. 2015. V. 347. P. 145–149.

См. также:
А. В. Захаров «Теория игр в общественных науках» — хороший учебник по теории игр.

Дмитрий Дагаев


41
Показать комментарии (41)
Свернуть комментарии (41)

  • GaribalDI  | 28.01.2015 | 22:26 Ответить
    пустышка

    покер - это еще и психология, и её теоремами не просчитаешь

    это игра между людьми, а не между алгоритмами
    Ответить
    • napa3um > GaribalDI | 29.01.2015 | 14:04 Ответить
      Психология вытекает исключительно из невозможности человеком достоверно и полно посчитать свои риски. В абсолюте лучшим игроком в покер (на, скажем, тысяче кругов) всё-таки гарантированно стал бы гипотетический гений, умеющий в голове просчитывать все варианты и их вероятности, даже абсолютно не владеющий психологией (аутист). Шахматы, несмотря на полноту информации, тоже превращаются в психологическую игру только потому, что потенциальные ответные ходы противника скрыты "туманом невычислимости". Но если ты точно знаешь, что мат в семь ходов неизбежен (что ставка на стрит принесёт пятикратный выигрыш с 90% вероятности), то становится абсолютно неважным, как ведёт себя противник с точки зрения психологии (ходы теряют все свои эмоциональные эпитеты типа "агрессии" или "блефа" - остаются только вероятности исходов).
      Ответить
      • GaribalDI > napa3um | 31.01.2015 | 00:56 Ответить
        Ответить
        • napa3um > GaribalDI | 31.01.2015 | 14:24 Ответить
          Вы не можете преодолеть когнитивное искажение восприятия теории вероятностей. Для вас и монетка наверняка упадёт орлом, если до этого упала решкой. С концепцией Пенроуза о квантовой природе сознания знаком, но природа сознания, психология, и любая другая "магия" не имеет значения, если игрок способен просчитать предельные вероятности всех исходов текущей рассматриваемой ситуации за столом. Не важно, как себя поведёт противник, максимум, на что может "потратить" противник всю свою психологическую смекалку - это не ухудшить для себя вероятности исхода, которые ему насчитал гений-счетовод.
          Ответить
          • GaribalDI > napa3um | 01.02.2015 | 17:24 Ответить
            Ответить
            • napa3um > GaribalDI | 02.02.2015 | 14:54 Ответить
              Магии нет, вероятность выпадания орла всегда 50%, даже если до этого триста раз выпала решка. Прошу прощения, если моё допущение неинтуитивности этого факта для вас прозвучало обидным.
              Ответить
              • GaribalDI > napa3um | 02.02.2015 | 15:14 Ответить
                Ответить
                • napa3um > GaribalDI | 02.02.2015 | 17:05 Ответить
                  Не очень понял сути вашего сообщения. Я извинился за то, что допустил мысль о вашей некомпетентности в понимании теории игр, а в ответ прочитал про танк и удобство беседы с самим собой. Какие мне выводы нужно сделать? (Эта ветка беседы меня не очень занимает, должен признаться, потому можете считать вопрос риторическим.)
                  Ответить
    • Croaker > GaribalDI | 29.01.2015 | 17:44 Ответить
      Уже давным-давно в онлайн-покере существуют программы, собирающую статистику игроков с которыми приходится играть. И вот там уже видно кто агрессивный и когда проявляет агрессию, кто пассивный, кто любит идти до конца и т. д.
      Ответить
      • napa3um > Croaker | 29.01.2015 | 23:19 Ответить
        У сильных игроков есть способы защиты от такого "реверс-инжиниринга" своих стратегий внедрением в них "случайного оракула". К примеру, можно делать ставку в зависимости от чётности/нечётности минуты, на которой делается ход, без "поломки" стратегии на уровне конечных вероятностей исходов. Сбор статистики работает только для начинающих, "прямолинейных" игроков (т.е., которые невольно выбирают стратегию из ограниченного набора предусмотренных заранее создателем "реверс-инжинирингового анализатора" моделей, которым как раз и даются условные названия "аккуратный", "агрессивный" и т.п.). Но "гениальному вычислителю" не помешают эти трюки - он работает как раз с конечными (предельными) вероятностями, ему нет нужды классифицировать стратегии противников.
        Ответить
        • GaribalDI > napa3um | 31.01.2015 | 01:13 Ответить
          Ответить
          • napa3um > GaribalDI | 31.01.2015 | 14:28 Ответить
            Покер - это абстрактная игра на принятие решений, а не физическая задача, она не подвержена погрешностям в точности измерения исходных данных, она сразу существует и развивается в "математическом пространстве". Изучите подходы раздела математики, называемом теорией игр, для решения задач попроще, чем покер, чтобы преодолеть этот свой барьер в интуитивном представлении о теории вероятностей.
            Ответить
            • GaribalDI > napa3um | 02.02.2015 | 15:15 Ответить
              Ответить
              • napa3um > GaribalDI | 02.02.2015 | 17:07 Ответить
                Если только вы играете с краплёной колодой.
                Ответить
                • GaribalDI > napa3um | 02.02.2015 | 17:13 Ответить
                  Ответить
                  • napa3um > GaribalDI | 02.02.2015 | 17:36 Ответить
                    Предельностью исходов. Краплёная карта - это точная информация. А если мы сидим на префлопе и я улыбаюсь, то информации в этом гораздо меньше, чем моя улыбка на ривере. Более того, моя улыбка зависит от того, как вы её интерпретируете, зная свои карты. Но так же зная, что я их не знаю. Причём, вам придётся заплатить с какой-то вероятностью, чтобы проверить свою догадку о моей улыбке. И вот, что контринтуитивно - ваша плата за проверку значения моей улыбки или не улыбки строго укладывается в предельные вероятности исходов раздачи (вы можете только ухудшить её, но не улучшить).
                    Ответить
          • napa3um > GaribalDI | 31.01.2015 | 14:34 Ответить
            > Неприменимо к реальной игре из-за того, что в игре людей всё равно человек не сможет быть "гениальным вычислителем".
            Только этот факт и создаёт "психологию игры", возможность её описания в нечётко сформулированных терминах о характеристиках мышления игроков. Именно об этом я и сказал выше. Высшая психическая деятельность человека эволюционно возникла как адаптация для функционирования организма в среде, состояние которой не может быть вычислено абсолютно достоверно.
            Ответить
            • xolod > napa3um | 01.02.2015 | 17:10 Ответить
              Я понимаю все с точки зрения теории игр. Но, наверно имелась в виду ситуация, которую можно разобрать на более простом примере. Пусть это игра - камень, ножницы, бумага. Можно решить ее в смешанных стратегиях и получить идеального игрока, с вероятностями по 0,3333. Но допустим, что один из игроков, сам того не ведя, но будет выдавать выражением своего лица заранее, что он задумал. Тогда "суперпсихолог" который будет этим пользоваться станет играть лучше против него, чем гениальный вычислитель. Но против гениального вычислитель он будет все равно бессилен. Если, конечно, вычислитель будет с каменным лицом :). В покере же рассуждения проще. Там смешанные стратегии даже не требуются, с точки зрения вычислителя все однозначно, если не проявлять эмоций. Но вот если он не удержаться, т.е. непроизвольно сообщит сопернику информацию, то тогда и математически это получится уже другая игра, где его стратегия уже не будет оптимальной.
              Ответить
              • GaribalDI > xolod | 01.02.2015 | 17:21 Ответить
                Ответить
                • napa3um > GaribalDI | 02.02.2015 | 18:19 Ответить
                  "Потому что иногда игроки допускают запрещенные ходы и воруют фигуры с доски" - теперь понятны ваши аргументы и ваши победные стратегии. Да, вы точно обыграете машину.
                  Ответить
              • napa3um > xolod | 02.02.2015 | 14:56 Ответить
                В камень-ножницы-бумага нет ставок на вероятность и выбор производится вне зависимости от выбора оппонента. Это совершенно некорректная аналогия.
                Ответить
                • xolod > napa3um | 03.02.2015 | 16:20 Ответить
                  А это и не аналогия вовсе. Я просто хотел показать, что математическая формулировка игры может измениться непредсказуемым образом, если игрок сам того не ведая транслирует во вне свои эмоции (а значит и информацию о своих картах) во время игры. И ему может тогда не помочь никакая стратегия. Не конкретно про этот покер. Небольшой комментарий. Но в споре, что я тут вижу, я полностью согласен с Вашей точкой зрения!
                  Ответить
    • deviant_9 > GaribalDI | 01.02.2015 | 19:13 Ответить
      > это игра между людьми, а не между алгоритмами

      Если один из игроков прибегает к помощи программы, то это игра между остальными игроками и алгоритмом -- независимо от того, знают ли остальные игроки об этом или нет.

      И никакая "психология" остальных игроков тогда не спасёт. Лучшее, что они могут сделать -- сами прибегнуть к помощи программ.
      Ответить
      • GaribalDI > deviant_9 | 01.02.2015 | 21:46 Ответить
        Ответить
        • deviant_9 > GaribalDI | 02.02.2015 | 01:36 Ответить
          Покер бывает не только в казино. В последнем абзаце статьи тема "люди, а не алгоритмы" вполне раскрыта.
          Ответить
    • Kyu > GaribalDI | 02.02.2015 | 06:42 Ответить
      Что мешает промоделировать и просчитать и психологию тоже - душа?
      Ответить
      • GaribalDI > Kyu | 02.02.2015 | 15:21 Ответить
        Ответить
        • napa3um > GaribalDI | 02.02.2015 | 17:11 Ответить
          Возможно, вас заинтересует Лефевр с его "Рефлексией" и "Алгеброй совести", это как раз расширение классической теории игр до возможности выражать ситуации типа "он знает, что я знаю, что он знает" и сопоставлять их с вероятностями. Ничего другого в "психологии" покера вообще нет и быть не может (несмотря на все эмоции, которые вы испытываете при игре). При этом, если вы обладаете способностью рассчитать предельные вероятности исходов и их выгоды (т.е., предположить все будущие ходы противника в текущей ситуации и риски в них для себя вплоть до вскрытия карт или паса), то даже это расширение теории игр не требуется. Вообще. (Это трудно понять, согласен, попозже попробую сформулировать "нанопокер" с монетками на пару кругов, чтобы можно было составить обозримую таблицу всех исходов. Если не выполню своего обещания - попробуйте сами, я уверен, это открытие доставит вам удовольствие.)
          Ответить
          • GaribalDI > napa3um | 02.02.2015 | 17:24 Ответить
            Ответить
            • napa3um > GaribalDI | 02.02.2015 | 17:29 Ответить
              Вы защищаете свой профессионализм в этой игре? Несмотря на победу компьютера над человеком в шахматах игры между людьми никуда не делись, а чемпионы пользуются всё тем же уважением. Не переживайте, и "человеческому" покеру не угрожает алгоритмическая вычислимость. Но если вы считаете корректным противопоставить этой вычислимости краплёность карт, то уважения среди чемпионов в покер вы вряд ли добьётесь (и моё понимание вашего участия в дискуссии, конечно, немного меняется).
              Ответить
              • GaribalDI > napa3um | 02.02.2015 | 17:35 Ответить
                Ответить
                • napa3um > GaribalDI | 02.02.2015 | 17:39 Ответить
                  Но, тем не менее, человек проиграет машине (на большом количестве кругов), даже если за монитором машины будет сидеть оператор и смотреть на карты, и улыбаться или хмуриться, предполагая её "надежды" на успех (но не мешая машине делать выбор). И если никто не будет жульничать.
                  Ответить
            • napa3um > GaribalDI | 02.02.2015 | 17:58 Ответить
              "Так что к реальному покеру всё равно отношения иметь не будет." - конечно, это исследование полезно для фундаментальной науки (как ни странно), а не для написания ботов для покера. Это исследование позволяет сопоставить "человеческие" стратегии и "идеальные", что позволит увидеть, что "человеческого" есть в людях с точки зрения выбора в играх с неполной информацией (которыми являются большинство "бытовых" ситуаций).

              У меня, например, в модели ИИ покерные ситуации (у меня не покер, а более абстрактная и примитивная игра на ставки) эмулируют ситуации социальных конфликтов. Это позволяет строить реалистичные ("да, ведёт себя так, что я верю, что так повёл бы себя живой человек") модели взаимодействия в играх самых разных жанров (даже очень далёких от настольных). Как раз потому, что большинство игр - это игры с неполной информацией (или сводимы к ним).
              Ответить
  • VladNSK  | 04.02.2015 | 08:28 Ответить
    Редактору. А почему пропали все сообщения от некоего Гарибальди?
    Ответить
    • editor > VladNSK | 04.02.2015 | 14:48 Ответить
      Спросите у самого GaribalDI.
      Ответить
      • VladNSK > editor | 04.02.2015 | 22:35 Ответить
        Понял! Спасибо за ответ.
        Ответить
  • Promat  | 07.02.2015 | 01:21 Ответить
    А в последнем абзаце, про безлимитный покер, где "ставки можно делать любого размера". Упор там на то, что повышение ставки может быть не строго 10у.е., а скажем 5, 10, 20у.е.? Или имеется в виду именно отсутствие "ограничения сверху"? Так второе предположение думается неверно - никакое онлайн-казино не сможет себе позволить делать игрокам безлимитные ставки, ибо может найтись некий Сорос-2, который выставляя из игры в игру условный миллиард заставит всех остальных постоянно сдаться и таким образом обанкротит всех и вся.
    Ответить
    • int > Promat | 08.03.2015 | 04:19 Ответить
      Безлимитный покер по большому счёту конечная игра, но с учётом что там можно делать любую ставку от блайнда до своего стека (в основном до стека в банке) с любым шагом то количество вариантов становится большим, но с другой стороный если сравнять ставки 10 и 10,01 доллара разделить их на несколько секторов смотря какую точность хотим то вполне можно вычислять но количество вариантов всё равно будет большим, тут уже не тупой перебор а какие то умные стратегии надо применять.

      По поводу сороса, он не заставит всех сдаться, т.к. не обязательно будет рисковать на свой дом, максимум на тот стек который находится у него за столом.
      Ответить
    • mrbus > Promat | 04.09.2015 | 09:14 Ответить
      Неверно. Изучите правила игры. Есть понятие all-in. Более того, существует довольно выигрышная "стратегия коротких стеков", когда человек специально заходит с низким стеком и постоянно алл-инит. И эта стратегия медленно, но верно высосет из Сороса весь его миллиард, придется только постоянно выводить из игры лишний стек, чтобы он оставался низким.
      Ответить
  • mrbus  | 03.09.2015 | 10:53 Ответить
    Хотелось бы достать оригинал статьи, но...
    Я так понял, только по подписке на Science, а она стоит $50
    Ответить
  • u13db  | 27.05.2018 | 17:20 Ответить
    "Однако покер, в отличие от шашек, является игрой с несовершенной информацией. Это делает невозможным прямое применение алгоритма обратной индукции: если игрок в какой-то момент не знает, в какой из вершин он находится, то он не сможет найти однозначно оптимальное решение. Тем не менее такую игру можно переписать в виде матрицы "

    Мне вот интересно, почему это игрок не знает, в какой из вершин он находится? В покере последовательность действий строго регламентирована: сначала первый ходит по часовой стрелке, потом - второй и т.д. И каждое действие каждого игрока: fold/call/raise/check/bet/all-in известно всем остальным игрокам.

    С другой стороны, если дерево нельзя построить, то почему тогда матрицу игры можно построить? Откуда вы все это берете? Что интересно, в учебнике Захарова динамические игры с неполной информацией не разбираются. Там есть только динамические игры с полной информацией и статические игры с неполной информацией. Написано все крайне скупо, да еще и с каким-то невиданным формализмом, который еще не факт, что верен. Видимо, писалось все в расчете на то, что никто не будет это читать. А если и прочтет, то не станет пользоваться.
    Ответить
Написать комментарий
Элементы

© 2005–2025 «Элементы»