Тройная игра

Задача

Три идеальных логика играют в такую игру. Каждый из них должен тайно записать положительное целое число. Потом они показывают друг другу написанные числа. Тот, у кого окажется наименьшее уникальное число, получит 3 доллара (двое других не получат ничего). А если все три будут одинаковыми, то каждый логик получит доллар. Игроки хотят максимизировать свой выигрыш, а общение между ними во время игры запрещено. Как им действовать?


Подсказка 1

Пусть логики дополнительно договорились выбирать только числа 1 или 2. Как при этом должен действовать каждый из них?


Подсказка 2

Пусть двое логиков по-прежнему выбирают между 1 и 2, руководствуясь оптимальной стратегией выбора, а третий выбирает между 1, 2 и 3. Как часто он должен выбирать тройку?

Рассмотрите также другой вариант действий: пусть один из логиков остается верен выбору между 1 и 2, а двое других выбирают между 1, 2 и 3. Какой будет оптимальная стратегия для каждого из них?


Решение

Начнем с очень простых соображений. Назовем ходом игрока выбор им определенного числа, а партией — игру, в которой каждый игрок сделал свой ход. Результатом партии, по условию, является либо выигрыш 3 долларов одним из игроков, либо выигрыш 1 доллара каждым из них. Иначе говоря, можно считать, что до начала партии каждый игрок делает единичную ставку, а результат партии — либо ничья (каждый сохраняет свою ставку), либо победа одного из игроков (все ставки уходят победителю). Ну и, наконец, мы будем рассматривать не однократную игру (партию), а многократную (матч из огромного числа партий).

Соображение 1. Оптимальная стратегия, какой бы она ни была, должна «в среднем» сохранять игроку его ставку.

(Математики называют такие игры «играми с нулевой суммой».) Это следует из того, что все игроки равноправны, а значит, если они сыграют очень много (3N) результативных партий (то есть партий, которые не закончились вничью), и каждый будет пользоваться оптимальной стратегией (возможно, одной из нескольких, если их больше одной), то каждый выиграет в среднем по N партий и проиграет остальные 2N, а значит, получит дополнительные 2N долларов на выигрышах и столько же потеряет на проигрышах.

Соображение 2. Никакая стратегия, в которой игрок не пользуется случайностью для выбора своего «хода», не может быть оптимальной.

Действительно, оптимальная стратегия должна давать игроку (назовем его первым) гарантированную нулевую сумму независимо от того, какие стратегии используют партнеры. Пусть (по удивительной и необъяснимой случайности, например, в результате умения читать чужие мысли) второй игрок пользуется той же самой стратегией, что и первый (то есть делает те же ходы), а третий постоянно делает другие ходы. Тогда все партии будет выигрывать третий игрок, а оптимальная стратегия приведет к потере первым игроком всех его ставок!

Теперь можно разобраться с наводящими вопросами, заданными в подсказках.

Пусть логики дополнительно договорились выбирать только числа 1 или 2. Как при этом должен действовать каждый из них?

Уточним, что в силу соображения 2 игроки должны выбирать между 1 и 2 случайным образом, то есть выбирать 1 с некоторой вероятностью p, а 2 — с вероятностью (1 − p). Очевидно, что выбор между 1 и 2 полностью симметричен — это приводит к выигрышу, если оба остальных игрока делают другой ход. Следовательно, p = 1 − p и поэтому p = 0,5. Действительно, заполним табличку возможных случаев (при p = 0,5 все эти случаи равновероятны):

Ход игрока №1 Ход игрока №2 Ход игрока №3 Результат партии
1 1 1 Ничья
1 1 2 Победа игрока №3
1 2 1 Победа игрока №2
1 2 2 Победа игрока №1
2 1 1 Победа игрока №1
2 1 2 Победа игрока №2
2 2 1 Победа игрока №3
2 2 2 Ничья

Восемь строк таблицы соответствуют восьми равновероятным комбинациям ходов. В двух вариантах партия заканчивается вничью, в остальных — по 2 победы у каждого из игроков.

Кажется, что тот же результат можно было бы получить и без предварительного соображения о том, что p = 0,5. Действительно, пусть мы пока не знаем значения p, но верим, что оно одинаково у всех. Первый игрок получит $1 при обеих ничьих — когда все сделали одинаковые ходы. Это происходит с вероятностью p3 + (1 − p)3. При обоих выигрышах первый игрок получит $3. Таким образом, выигранная им сумма (точнее было бы использовать здесь термин «математическое ожидание выигрыша первого игрока») равна

\[\begin{multline*}S = 1\cdot p^3+1\cdot(1-p)^3 + 3p^2(1-p) + 3p(1-p)^2=\\ = p^3 + 1-3p+3p^2-p^3 + 3p^2-3p^3 + 3p-6p^2+3p^3= 1.\end{multline*}\]

Этот результат кажется удивительным, но он верен! Действительно, любая случайная стратегия трех игроков приносит каждому в среднем $1 за партию, если стратегия одинакова у всех троих.

Однако почему мы так уверены, что все трое придерживаются одной и той же стратегии? Пусть это верно для двоих, но выбранная ими стратегия соответствует p, не равному 0,5, а третий игрок выбирает между 1 и 2 равновероятно (то есть «его p» равно 0,5). Тогда ожидаемый выигрыш этого игрока равен

\[\begin{multline*}(1+3)\cdot 0{,}5\cdot p\cdot p + (1+3) \cdot 0{,}5\cdot (1-p)(1-p) =\\ = 2-4p+4p^2 = 1 + (1-2p)^2.\end{multline*}\]

Иначе говоря, он всегда выиграет больше чем $1. Таким образом, ни одна стратегия со значением p, отличным от 0,5, здесь не может быть оптимальной!

Пусть двое логиков по-прежнему выбирают между 1 и 2, руководствуясь оптимальной стратегией выбора, а третий выбирает между 1, 2 и 3. Как часто он должен выбирать тройку?

Рассмотрим эту ситуацию с позиции первого игрока. Пусть он с вероятностью p сделает ход 1 или 2, а с вероятностью 1 − p — ход 3. Если в первом случае, выбирая между 1 и 2, он будет использовать ту же оптимальную стратегию, которой пользуются остальные, то его ожидаемый выигрыш будет равен 1 (как и у остальных). А вот при выборе хода 3 он будет выигрывать тогда, когда двое остальных сделали одинаковые ходы, то есть в половине всех случаев.

Таким образом, выигрыш первого игрока при такой стратегии составит

\[S = 1\cdot p+3\cdot 0{,}5\cdot (1-p) = 1{,}5-0{,}5p.\]

Чем меньше p, тем больше выигрывает такой игрок! Иначе говоря, если он всегда будет выбирать 3, то он будет выигрывать в половине всех игр и проигрывать остальные, а значит, в среднем иметь $1,5. Соответственно, ожидаемый выигрыш у двух остальных уменьшится до $0.75.

Пусть один из логиков остается верен выбору между 1 и 2, а двое других выбирают между 1, 2 и 3. Какой будет оптимальная стратегия для каждого из них?

Это более сложная ситуация, но и с ней можно разобраться с помощью аналогичных соображений.

Пусть каждый из первых двух игроков с вероятностью p делает ход 1 или 2, а с вероятностью 1 − p — ход 3. Так как эти два игрока действуют одинаково, нам проще разобраться с теми случаями, в которых выигрывает третий. Если они делают ход 1 или 2, то ожидаемый выигрыш каждого из троих равен 1 (см. выше), а вот если они оба делают ход 3, то всегда (!) выигрывает третий игрок.

Кроме того, третий игрок выигрывает в тех случаях, когда он сам выбирает 1, один из первых двух выбирает 2, а другой — 3. Это происходит с вероятностью \(0{,}5p(1-p)\). Иначе говоря, ожидаемая сумма выигрыша третьего игрока при этом равна

\(1\cdot p^2 + 3(1-p)^2 + 1{,}5p(1-p)= 2{,}5 p^2- 4{,}5 p + 3\).

Цель первых двух игроков — минимизировать эту величину, тогда их собственный выигрыш будет максимальным. Минимум достигается при p = 0,9 и равен 39/40, что достаточно мало отличается от 1, но все же дает им некоторое преимущество.

Практически так же можно показать, что каким бы ни был выбор внутри конечного списка вариантов (например, «можно делать только ходы 1, 2, ..., k»), расширение двоими игроками этого списка вариантов еще на одно число всегда приносит им преимущество перед тем игроком, который придерживается исходного списка.

Кажется, теперь можно приступать к решению задачи. Ответ в ней такой: каждый игрок должен делать ход k случайным образом с вероятностью 1/2k.

Докажем этот ответ по индукции, а именно, будем доказывать, что оптимальная стратегия при ограничении ходов множеством чисел, не превосходящих N, состоит в выборе числа 1 с вероятностью 1/2, числа 2 — с вероятностью 1/4, ..., а последних двух чисел — с равной вероятностью. Базу индукции для N = 2 мы уже рассмотрели.

Пусть мы уже разобрались с оптимальной стратегией при выборе игроками одной из N − 1 возможностей. Теперь рассмотрим игру для N возможностей.

Пусть игрок выбирает ход 1 с вероятностью p. Если он сделал такой выбор, то:
- его выигрыш равен 1 в случае, если оба остальных тоже сделали ход 1;
- его выигрыш равен 3 в случае, если оба не сделали такой ход.
Иначе говоря, ожидаемый выигрыш равен \(S_1=p^2 + 3p(1-p)^2\).

Если он не сделал такой выбор, а оба остальных сделали, то он выиграл. И, наконец, если все трое не выбрали 1, то для них игра свелась к игре с (N − 1) возможностями, в которой ожидаемый выигрыш каждого игрока равен 1. Итого ожидание выигрыша для хода «не 1» равно \(S_2=3(1-p)p^2 + (1-p)^3\). Так как S1 + S2 (по формуле бинома Ньютона) равно 1, то наименьшее из двух этих выражений не больше 1/2. Если одно из них будет меньше 1/2, а другое больше 1/2, то оба других игрока смогут изменить стратегию так, чтобы уменьшить ожидаемый выигрыш первого. Поэтому он должен позаботиться о том, чтобы каждое из выражений S1 и S2 было равно 1/2. После небольших алгебраических преобразований равенства S1 = S2 получаем, что p = 1/2. Иначе говоря, ход 1 каждым из игроков делается с вероятностью 1/2, а с остальной вероятностью они применяют оптимальную стратегию для N − 1 возможностей.

По индукции получаем, что каждый ход k делается с такой же вероятностью, как и суммарно все большие ходы, то есть с вероятностью 1/2k.


Послесловие

Рассмотренная задача — один из наиболее простых примеров задач теории игр. Здесь «игра» — это любой процесс, в котором каждая из участвующих сторон стремится к реализации своих интересов, и эти интересы у разных сторон могут вступать в конфликт друг с другом.

Методы теории игр сейчас уже считаются классическими, хотя появились они относительно недавно (основополагающая книга Джона фон Неймана и Оскара Моргенштерна «Теория игр и экономическое поведение» вышла в 1944 году). Джон Нэш получил Нобелевскую премию по экономике за свою диссертационную работу 1949 года, посвященную поиску точек равновесия в вероятностных играх.

Вся вторая половина XX века ознаменовалась победным маршем теоретико-игровых методов по прикладным наукам — не только экономическим, но и в технике, кибернетике, биологии. Собственно, где-то от четверти до трети всех Нобелевских премий по экономике в это время присуждались математикам именно за их вклад в экономическую науку.

Одним из важнейших (хотя и далеко не единственным) классов игр являются игры с нулевой суммой (zero-sum game). Лучше всего изучены такие игры для двух игроков, однако и игры многих игроков тоже не были обойдены вниманием специалистов. Исследование таких игр получило даже отдельное название — «эволюционная теория игр» (Evolutionary game theory), потому что именно такими методами моделируется влияние дарвиновского естественного отбора. В рамках эволюционной теории игр изучается не столько поиск оптимальной стратегии в статической игре, сколько изменение оптимальных стратегий с течением времени.

Известнейший пример игры, в которой оптимальная стратегия может зависеть от поведения оппонента, — «Дилемма заключенного». В ней у каждого есть две стратегии — «предательство» и «сотрудничество», но параметры выигрышей подобраны так, что каждому по отдельности выгоднее использовать «предательство», а суммарный выигрыш больше всего оказывается в режиме «сотрудничество». Дилемма заключенного возникает из-за того, что выбор рациональной стратегии каждым участником по отдельности не приводит всех вместе к оптимальному решению. Поэтому при рассмотрении повторяющейся игры (по тем же правилам) участники могут «наказывать» других за отказ от сотрудничества — и именно угроза такого наказания может оказываться фактором, сдерживающим желание игроков использовать более выгодное «предательство». Таким образом, повторяющаяся (многоходовая) игра может использовать стратегии, зависящие от поведения других участников.

Разумеется, любое математическое моделирование реальной жизни не дает стопроцентно работающих рецептов, которые можно было бы перенести обратно в жизнь. Но мы работаем над этим...


19
Показать комментарии (19)
Свернуть комментарии (19)

  • Олег Чечулин  | 01.06.2018 | 07:37 Ответить
    То есть, нужно называть число 1 с вероятностью 0,5, число 2 с вероятностью 0,25, число 3 с вероятностью 0,125, число 4 с вероятностью 0,0625 и так далее?
    Ответить
    • kknop > Олег Чечулин | 05.06.2018 | 00:19 Ответить
      Да, именно так
      Ответить
  • semenanna  | 01.06.2018 | 10:05 Ответить
    не рассмотрена ситуация, когда два игрока назвали наименьшее число, а третий - большее.

    Кроме того, фраза "Игроки хотят максимизировать свой выигрыш, а общение между ними во время игры запрещено" наводит на мысль, что игроки играют не друг против друга, а против человека, который и выплачивает доллары, но при этом что в ситуации "выиграл один", что в ситуации "ничья" суммарный выигрыш трех игроков - три доллара. То есть, не понятно, что тут оптимизировать.
    Ответить
    • Роман Пехов > semenanna | 02.06.2018 | 13:50 Ответить
      Математики, они такие – формулируют непонятно.

      Выигрывает «наименьшее уникальное число». Наименьшее из уникальных. Например, если игроки выбрали (1, 1, 2), тогда 1 не уникально, а 2 уникально. 2 это наименьшее (и единственное) из уникальных.

      «Игроки хотят максимизировать свой выигрыш». Переводим с птичьего на человеческий: каждый из игроков хочет выиграть как можно больше.
      Ответить
    • taras > semenanna | 03.04.2019 | 18:21 Ответить
      Кроме того, фраза "Игроки хотят максимизировать свой выигрыш, а общение между ними во время игры запрещено" наводит на мысль, что игроки играют не друг против друга, а против человека, который и выплачивает доллары, но при этом что в ситуации "выиграл один", что в ситуации "ничья" суммарный выигрыш трех игроков - три доллара. То есть, не понятно, что тут оптимизировать.
      А разве упоминание ставки не означает, что перед началом партии каждый тот же доллар вносит в призовой фонд?
      Ответить
  • wng_irk  | 01.06.2018 | 12:05 Ответить
    В ситуации, когда все трое выбирают между 1 и 2, если двое выбирают 1 с разными вероятностями (возьмем p и k), а третий берет 1 с вероятностью 1/2, то мат ожидание выигрыша третьего равно 1+4(p-1/2)(k-1/2), что будет меньше 1, если p и k находятся по разные стороны от 1/2. Если 1 и 2 выбирают p и k случайным образом, вероятность, что их стратегия окажется выигрышной (что p и k находятся по разные стороны от 1/2) равна 1/2. Таким образом стратегия равновероятного выбора между 1 и 2 является не единственной оптимальной.
    Ответить
    • taras > wng_irk | 03.04.2019 | 18:23 Ответить
      Про русский язык слышал?
      Ответить
  • wng_irk  | 01.06.2018 | 16:01 Ответить
    Более того, предположим все трое выбирают 1 с вероятностью 1/2. Допустим первый в какой то момент станет выбирать 1 с вероятностью 1. Мат ожидание его выигрыша останется равным 1 до тех пор, пока один из оставшихся игроков (допустим 2) не поймет новую стратегию игрока 1, и тогда игрок 2 станет выбирать 2 с вероятностью 1. В этом случае мат ожидание выигрыша третьего опустится до 0, а у первых двух будет по 1,5. Таким образом, по видимому, равновероятный выбор между 1 и 2 вообще не является оптимальной стратегией.
    Ответить
    • нoвый учacтник > wng_irk | 03.06.2018 | 09:46 Ответить
      в условиях задачи (на главной странице, а не здесь, в разделе комментариев) сказано, что все трое игроков - идеальные логики, из чего можно предположить, что новую стратегию игрока 1 они поймут одновременно
      Ответить
    • kknop > wng_irk | 05.06.2018 | 00:21 Ответить
      А какая стратегия тогда является оптимальной? (Да, именно для задачи, в которой можно выбирать только 1 или 2?)
      Ответить
      • wng_irk > kknop | 05.06.2018 | 05:41 Ответить
        Возможно, стратегия "первым занять свою нишу". То есть в ходе игры определить элемент, который не является ничьей нишей, и бить всегда туда. Это похоже на игру "трое бегают вокруг двух стульев, кто по свистку не успел занять стул, тот проиграл". Если все трое выберут данную стратегию, то перед началом игры ожидание выигрыша у каждого будет равно 1. Если один выберет стратегию ниш, а двое - хаотическую, то опять ожидание у всех равно 1. Но если двое выберут стратегию ниш, а один хаотическую, то у последнего ожидание выигрыша будет нулевым. Поэтому, наверное, стратегия ниш в среднем сильнее хаотической.
        Ответить
        • taras > wng_irk | 03.04.2019 | 18:25 Ответить
          Ты же не на экзамене, чтоб писать безграмотно.
          Ответить
  • bihtse1  | 01.06.2018 | 16:36 Ответить
    А как игрокам определить N, если они не общаются? Ведь если два игрока выбирают из N, которое больше 2, то третьему игроку выгодно всегда выбирать 1.
    Ответить
  • mrbus  | 01.06.2018 | 17:48 Ответить
    По элементарным соображениям понятно, что игра в смешанных стратегиях; также понятно, что если ограничить выбор числами не больше N, то иногда будет получаться, что двое игроков выбрали одно и то же число; тогда третьему выгодно включить в свой "арсенал" N+1; и так далее.
    В общем, интуиция подсказывает, что выбирать нужно любое натуральное число, скорее всего, с убывающей вероятностью, чем больше число, тем меньше вероятность.
    Бездоказательно, конечно... Но интуиция не подвела
    Ответить
  • Юрий Фёдоров  | 02.06.2018 | 12:13 Ответить
    Мне, как и наверняка всякому, не отравленному жаждой возводить вероятности в квадраты и кубы, все оч просто: если наименьшее выигрывает- бить в единицу. Наименьшее - че тут думать?
    И мы, такие игроки, не прогадаем: без спец договорённостей, на одной неизощренной полуслепой бытовой логике и нежелании думать будем иметь свой рубль в каждой партии. Вот если среди нас окажется хитропопый гад, который будет ставить не на единицу - тут мы запаникуем и начнём действовать хаотически, а это и есть идеальная, как тут сказано, стратегия.
    Получается, что условия этой игры так тонко настроены, что любой, самый даже идиот (имею ввиду "не математик") поневоле изберёт наилучшую стратегию.
    Всегда бы так!

    Но одно дело использовать лучшую стратегию, другое - быть уверенным, что она лучшая. Вот за такое "поглаживание по головке" каждый из нас скажет автору спасибо!)
    Ответить
  • Леша  | 04.06.2018 | 23:07 Ответить
    "Оптимальная стратегия должна давать игроку (назовем его первым) гарантированную нулевую сумму независимо от того, какие стратегии используют партнеры". Для этой игры такой стратегии нет! Например, если второй игрок будет всегда выбирать 1, а третий игрок всегда выбирать 2, то первый никогда не выиграет, в независимости от его стратегии!
    Оптимальная стратегия гарантировано существует только для случая игр с нулевой суммой для двух игроков. Если игроков больше 2, то условие нулевой суммы ни делает игру проще (любую игру можно сделать с нулевой суммой добавив еще одного игрока). Поэтому обычно под термином "игра с нулевой суммой" подразумевается игра для двух игроков (такое определение дается в русской Википедии, хотя в английской не так).
    Ответить
    • kknop > Леша | 05.06.2018 | 00:27 Ответить
      > Например, если второй игрок будет всегда выбирать 1, а третий игрок всегда выбирать 2, то первый никогда не выиграет, в независимости от его стратегии!

      Не совсем. Пусть первый игрок тоже начинает постоянно выбирать 2. Тогда второй будет выигрывать в каждой партии. Чтобы это изменить, кто-то из двоих - первый или третий - должен отступить от фиксированной стратегии.
      Вот дальше и разбирается смешанная...
      Ответить
      • Леша > kknop | 05.06.2018 | 03:14 Ответить
        Ну второй и третий могли договориться до начала игры, что они поделят выигрыш пополам. Вроде правилами запрещается общение только во время игры, а не до начала игры? В любом случае фраза "стратегия должна давать первому игроку гарантированную нулевую сумму независимо от того, какие стратегии используют партнеры" предполагает, что первый игрок будет получать в среднем неотрицательный выигрыш, даже если его партнеры действуют не по оптимальной стратегии. Если же оптимальную стратегию определить как "стратегию, дающую максимальный выигрыш при условии, что остальные игроки действуют оптимально", то такое определение содержит порочный круг, и мне неясно как его формализировать. Для двух игроков - это можно определить как седловую точку, а для трех?
        Ответить
  • taras  | 03.04.2019 | 18:09 Ответить
    Гораздо вероятнее совпадение двух чисел из трёх, а не всех трёх, при этом вероятность того, что третий выберет больше число при условии совпадения двух чисел 50%.
    Ответить
Написать комментарий
Элементы

© 2005–2025 «Элементы»