6.2. Эволюционно - стабильная стратегия
Разновидностью повторяющихся игр являются ситуации, когда индивид многократно попадает в определенную ситуацию выбора, но его контрагент не постоянен, а в каждом периоде индивид взаимодействует с новым визави. Поэтому вероятность выбора контрагентом той или иной стратегии будет зависеть не столько от конфигурации смешанной стратегии, сколько от предпочтений каждого из контрагентов. В частности, предполагается, что из общего числа N потенциальных контрагентов п (n/N %) всегда выбирают стратегию А, а т (m/N%) — стратегию Б. Тем самым создаются предпосылки для достижения нового типа равновесия, эволюционно-стабилъных стратегий. Эволюционно-стабиль-ной (ESS — Evolutionarily Stable Strategy) становится та стратегия, при которой если все члены определенной популяции используют ее, то никакая альтернативная стратегия не может ее вытеснить посредством механизма естественного отбора 10. Рассмотрим в качестве примера простейший вариант проблемы координации: разъезд на узкой дороге двух автомобилей (ситуация близка по некоторым параметрам и к модели I, и к модели IV). Предполагается, что в данной местности лево- и правосторонний стандарты движения равноправны (или же Правила дорожного движения просто не всегда выполняются)11. Автомобилю А движутся навстречу несколько автомобилей, с которыми ему нужно разъехаться. Если оба автомобиля принимают влево, въезжая на левую обочину по ходу движения, то они разъезжаются без проблем. То же самое происходит, если оба автомобиля принимают вправо. Когда же один автомобиль принимает вправо, а второй — влево и наоборот, то разъехаться они не смогут:
Итак, автомобилисту А известен приблизительный процент автомобилистов Б, систематически принимающих влево (Р), и процент автомобилистов Б, принимающих вправо (1 - Р). Условие для того, чтобы стратегия «принять вправо» стала для автомобилиста А эволюционно-стабильной, формулируется следующим образом: EU(вправо) > EU(влево), или 0Р+ 1(1 - Р) > 1Р+ 0(1 - Р), откуда Р< 1/2. Таким образом, при превышении доли автомобилистов во встречном потоке, принимающих вправо, уровня 50% эволюционно-стабильной стратегией становится «принять вправо» — сворачивать на правую обочину при каждом разъезде. |
Итак, автомобилисту А известен приблизительный процент автомобилистов Б, систематически принимающих влево (Р), и процент автомобилистов Б, принимающих вправо (1 - Р). Условие для того, чтобы стратегия «принять вправо» стала для автомобилиста А эволюционно-стабильной, формулируется следующим образом: EU(вправо) > EU(влево), или 0Р + 1(1 - Р) > 1Р+ 0(1 - Р), откуда Р < 1/2. Таким образом, при превышении доли автомобилистов во встречном потоке, принимающих вправо, уровня 50% эволюционно-стабильной стратегией становится «принять вправо» — сворачивать на правую обочину при каждом разъезде.
Эволюционно-стабильная стратегия — такая стратегия, что если ее использует большинство индивидов, то никакая альтернативная стратегия не может ее вытеснить посредством механизма естественного отбора, даже если последняя более эффективна по Парето |
- Эволюционно-стабильная стратегия — такая стратегия, что если ее использует большинство индивидов, то никакая альтернативная стратегия не может ее вытеснить посредством механизма естественного отбора, даже если последняя более эффективна по Парето,
В общем виде требования к эволюционно-стабильной стратегии записываются следующим образом 12. Стратегия I, используемая контрагентами с вероятностью p, является эволюционно-стабильной для игрока тогда и только тогда, когда выполняются следующие условия: EU( I, p) > EU(J, p), что тождественно pU(I, I) + (l -p)U/(I,J) >pU/(J, I) + (1 -p)U(J,J). Из чего следует:
• U/(/, /)> U(/, /) или
• U(J, I) = U(I,I) и U(I, J) > U(J, J),
где — U(I, I) выигрыш игрока при выборе стратегии I, если контрагент выбирает стратегию I; U(J, I) — выигрыш игрока при выборе стратегии У, если контрагент выбирает стратегию I, и т. д.
Можно представить эти условия и в графической форме. Отложим по вертикальной оси ожидаемую полезность выбора той или иной стратегии, а по горизонтальной — долю индивидов в общей популяции игроков, выбирающих обе стратегии. Тогда мы получим следующий график (значения взяты из модели разъезда двух автомобилей), изображенный на рис. 6.1.
Из рисунка следует, что и «принять влево», и «принять вправо» имеют равные шансы на то, чтобы стать эволюционно-стабильной стратегией до тех пор, пока ни одна из них не охватила больше половины «популяции» водителей. Если же стратегия перешагивает этот рубеж, то она постепенно, но неизбежно вытеснит другую стратегию и охватит всю популяцию водителей. Дело в том, что,
Рис. 6.1
если стратегия перешагивает рубеж 50%, для любого водителя становится выгодным использовать ее в маневрах, что, в свою очередь, еще больше увеличивает привлекательность данной стратегии для остальных водителей. В строгой форме данное утверждение будет выглядеть следующим образом: dp/dt = G [EU(I, р) — EU(J, p)], G'>0.
Главным результатом анализа повторяющихся игр является увеличение числа точек равновесия и решение на этой основе проблем координации, кооперации, совместимости и справедливости. Даже в дилемме заключенных, как мы уже упоминали в предыдущей лекции, переход к повторяющемуся взаимодействию позволяет достичь оптимального по Парето результата («отрицать вину»), не выходя за рамки нормы рациональности и запрета на обмен информацией между игроками. Именно в этом смысл «всеобщей теоремы» (folk theorem): любой исход, устраивающий индивида индивидуально, может стать при переходе к структуре повторяющейся игры равновесным 13. В ситуации дилеммы заключенных равновесным исходом при определенных условиях может стать и простая стратегия «не признавать», и множество смешанных стратегий. В числе смешанных и эволюционных стратегий, помимо Tit for Tat («зуб за зуб»), отметим следующие: Tit-For-Two-Tats — начинать с отрицания вины и признавать вину, только если в два предшествующих периода кряду контрагент признавал вину; DOWING — стратегия, исходящая из предположения о равновероятном использовании контрагентом стратегий «отрицать вину» и «признавать» в самом начале игры. Далее каждое отрицание вины со стороны контрагента поощряется, а каждое признание — наказывается выбором стратегии «признавать вину» в следующий
период; TESTER — начинать с признания вины, и если контрагент тоже признает вину, то в следующем периоде отрицать вину (т. е. извиниться) и далее использовать стратегию «зуб за зуб» — Tit for Tat 14.
Выводы. Подведем общие итоги обзора теории игр и вариантов ее использования в институциональном анализе. Главный аргумент в пользу того, чтобы строить модели институтов с помощью теории игр, заключается в интересе теории игр к ситуациям взаимозависимости действий индивидов, проблемам координации и согласования действий. Ведь именно институты призваны решить эти проблемы. С позиции теории игр функцию института можно определить как создание предпосылок (структурных, когнитивных, организационных) для фиксации одного из исходов игры в качестве равновесного. Эта задача особенно актуальна, если равновесие по Нэшу отсутствует или оно не единственно. Достижение равновесия с помощью институтов подразумевает 15:
• увеличение числа точек равновесия через формирование смешанных и эволюционных стратегий; формирование репутации игроков, в которой фиксируется вся информация о его поведении в прошлом; задание «удовлетворительных» критериев выбора альтернатив 16;
• выбор единственного равновесия из нескольких равновесных исходов с помощью соглашений и «фокальных точек»; задание критериев выбора альтернатив на основе ценностей; изменение структуры предпочтений индивида.
Учебно - методические материалы к теме 3
Практическое занятие
Основная форма работы в ходе практического занятия заключается в моделировании реальной экономической или просто часто встречающейся в повседневной жизни ситуации. При этом мы проходим все этапы разработки институциональной модели.
1. Обсуждение реальной ситуации и определение проблемы для анализа.
2. Разработка модели, обоснование величины выигрышей, соответствующих каждому из исходов игры.
3. Анализ модели: поиск всех видов равновесных исходов.
4. Поиск и обсуждение институциональных решений выявленных проблем.
5. Корректировка модели с учетом институциональных решений.
Рассмотрим в качестве примера взаимодействие между преподавателем и студентом по поводу текущего контроля работы студента. Хотя данная ситуация не имеет экономического содержания, к ней достаточно близка по структуре модель «менеджер — наемный работник», которая будет подробнее рассмотрена при обсуждении внутренней структуры фирмы. Итак, анализируемая проблема заключается в неочевидном характере стимулов для студента систематически готовиться к семинарам (читать рекомендуемую литературу, выполнять практические задания и т.д.). Следовательно, две стратегии студента, принимаемые здесь во внимание, — «добросовестно готовиться к занятиям» и «недобросовестно готовиться к занятиям». Со своей стороны преподаватель может либо контролировать работу студента (проводя опросы, тесты, контрольные работы), либо отказаться от контроля, который к тому же связан для него с издержками времени и усилий. Предположим, издержки на подготовку к семинару для студента равны 1 и издержки осуществления контроля для преподавателя тоже равны 1. Преподаватель получает максимальную полезность, равную 2, если студент готовится. Студент получает максимальную полезность, если спокойный ход его жизни не нарушается ни подготовкой, ни проверками знаний. Учитывая, что сессия еще далеко, санкции преподавателя за выявленную неготовность студента к занятию минимальны.
Формальный анализ сконструированной подобным образом модели дает следующие результаты: доминирующие стратегии у обоих игроков отсутствуют, равновесие по Нэшу отсутствует. Равновесием по Штакельбергу, когда первым принимает решение студент, является исход (1, 2), а когда преподаватель — исход (1, 1). Исход (1, 2) одновременно является и равновесием по Парето. Существует в данной модели и равновесие по Нэшу в смешанных
стратегиях. Чтобы найти его, предположим, что преподаватель иногда контролирует студентов (с вероятностью Р2), а иногда — нет. В свою очередь студент тоже готовится не всегда, а только в Р1 % случаев. Тогда ожидаемая полезность студента от подготовки составит EU(готовиться) = Р2 + (1 — Р2) = 1, а ожидаемая полезность студента в противном случае EU(wt готовиться) = 2 — 2Р2. В целом ожидаемая полезность студента от игры составит EU (студент) = P1+ (1 - P1) (2 - 2Р2) = Р1 (2Р2 - 1) + 2 - 2P2, т. е. при Р2= 1/2 студент не может в одностороннем порядке увеличить свою полезность. Аналогичные расчеты для преподавателя дадут Р1 = 1/2. Иными словами, равновесие по Нэшу в смешанных стратегиях достижимо, если студент готовится через раз, а преподаватель не проверяет с периодичностью через раз.
Симметричным образом можно изменить и систему стимулов для преподавателя. |
Отсутствие «чистого» равновесия по Нэшу свидетельствует о наличии в данной модели проблемы совместимости, т. е. прямой противоположности интересов преподавателя и студента. Следовательно, институциональные решения должны в первую очередь касаться решения проблемы совместимости. Первое решение заключается в обязательности осуществления контроля для преподавателя. Например, кафедра или руководство факультета принимает соответствующее решение. Второе решение связано с возникновением репутации преподавателя и студента. Так, о строгости и требовательности преподавателя в студенческой среде из «поколения в поколение» могут передаваться легенды, позволяющие ему добиться добросовестного отношения студентов, даже не прибегая часто к контролю. Наконец, можно попытаться изменить институциональные рамки обучения в целом, реформировав систему образования и создав стимулы для студентов к получению знаний (через платность образования и льготы по оплате для успевающих, например, на хорошо и отлично). В этом случае изменятся полезности студента и появится равновесие по Нэшу:
Вопросы для повторения
1. Почему институциональная теория «говорит» на языке
теории игр, а не традиционного для неоклассики математического
аппарата?
2. Какие основные проблемы взаимодействия индивидов моделируются с помощью теории игр?
3. Какие новые типы равновесных исходов возникают в динамическом аспекте? Что лежит в основе их возникновения?
4. Какую форму принимают институциональные рамки в моделях теории игр? Приведите пример рассмотрения института с помощью аппарата теории игр.
5. Какие нормы, образующие конституцию рынка, описывает поведение игроков (на примере одной из базовых моделей теории игр)? Сводится ли поведение игроков к одной-единственной норме рациональности?
6. Какая из базовых моделей теории игр наилучшим образом иллюстрирует идею «фокальной точки»?
Основная литература
Гальперин В., Игнатьев С, Моргунов В. Микроэкономика. СПб.: Экономическая школа, 1998. Т. 2. Приложение 1а.
Оуэн Г. Теория игр. М., 1971.
Schotter Л. Microeconomics. A Modern Approach. N.Y.: Harper Collins, 1994. Ch. 7. P. 204-247.
Дополнительная литература
Льюис P., Райфа X. Игры и решения. М.: Изд-во иностранной литературы, 1951.
Guerrien В. La theorie des jeux. Paris: Economica, 1995.
Kreps D. Game Theory and Economic Modelling. Oxford: Oxford University Press, 1990.