【小俵将之・浅古泰史・森谷文利・図斎大】
問題6.1(均衡の割引因子の計算)
太郎の割引因子を\(d_T\),次郎の割引因子を\(d_J\)とする。
太郎と次郎のトリガー戦略は以下で与えられる。
最初の期では高を選ぶ。2期目以降の行動は以下で与えられる。過去の全ての期で2人共が高を取っていた場合,高を選ぶ。過去に一度でも低を取ったプレーヤーがいた場合は,底を選ぶ。
互いがこのトリガー戦略を取り合っていることがナッシュ均衡になるような割引因子\(d_T,d_J\)の範囲を求める。
(ア)この利得表では太郎と次郎のステージゲームの利得は同じなので,太郎の割引因子d_Tのみを考えればよい。互いがトリガー戦略を取り合っていた場合の太郎の総利得の現在価値は
\[2+2d_T+2d_T^2+⋯=\frac{2}{1-d_T}\]
となる。次に,太郎が「1期目に低をとり,2期目以降はトリガー戦略に従う」という戦略に自分だけ変えた場合の利得を求める。これを計算すると,
\[4+d_T+d_T^2+⋯=4+\frac{d_T}{1-d_T}\]
となる。よって,トリガー戦略が均衡で太郎がトリガー戦略から逸脱しない条件は以下で与えられる。
\[\frac{2}{1-d_T}≥4+\frac{d_T}{1-d_T}.\]
これを整理すれば,
\[d_T≥\frac{2}{3}\]
を得る。同様に\(d_J≥2/3\)を得る。まとめると\(\boldsymbol{d_T≥2/3}\)かつ\(\boldsymbol{d_J≥2/3}\)が均衡の条件である。
(イ)この利得表では2人の利得が異なるので,それぞれの割引因子\(d_T,d_J\)の範囲を求める。
太郎. 互いがトリガー戦略を取り合っていた場合の太郎の総利得の現在価値は
\[3+3d_T+3d_T^2+⋯=\frac{3}{1-d_T}\]
となる。一方,太郎が「1期目に低をとり,2期目以降はトリガー戦略に従う」という戦略に自分だけ変えた場合の,太郎の総期待利得の現在価値は,
\[5+d_T+d_T^2+⋯=5+\frac{d_T}{1-d_T}\]
となる。よって,均衡で太郎がトリガー戦略から逸脱しない条件は以下で与えられる。
\[\frac{3}{1-d_T }≥5+\frac{d_T}{1-d_T}.\]
これを整理すれば,
\[d_T≥\frac{1}{2}\]
を得る。
次郎. 互いがトリガー戦略を取り合っていた場合の次郎の総期待利得の現在価値は
\[4+4d_J+4d_J^2+⋯=\frac{4}{1-d_J}\]
となる。一方,次郎が「1期目に低をとり,2期目以降はトリガー戦略に従う」という戦略に自分だけ変えた場合の,次郎の総期待利得の現在価値は,
\[7+2d_J+2d_J^2+⋯=7+\frac{2d_J}{1-d_J}\]
となる。よって均衡で次郎がトリガー戦略から逸脱しない条件は以下で与えられる。
\[\frac{4}{1-d_J}≥7+\frac{2d_J}{1-d_J}.\]
これを整理すれば,
\[d_J≥\frac{3}{5}\]
を得る。まとめると\(\boldsymbol{d_T≥1/2}\)かつ\(\boldsymbol{d_J≥3/5}\)が均衡の条件となる。
問題6.2(戦略の工夫:無限)
全日と新日のステージゲームでの利得は同じなので,全日のみ考える。
(ア)互いにトリガー戦略を取り合っていた場合の,全日の総期待利得の現在価値は
\[60+60d+60d^2+⋯=\frac{60}{1-d}\]
となる。次に,全日が「1期目に中をとり,2期目以降はトリガー戦略に従う」という戦略に自分だけ変えた場合の,総期待利得の現在価値を求める。これを計算すると,
\[80+50d+50d^2+⋯=80+\frac{50d}{1-d}\]
となる。よって,均衡でトリガー戦略から逸脱しない条件は以下で与えられる。
\[\frac{60}{1-d}≥80+\frac{50d}{1-d}.\]
これを整理すれば,
\[d≥\frac{2}{3}\]
を得る。従って\(\boldsymbol{d≥2/3}\)が均衡の条件となる。
(イ)(イ)における厳罰戦略を互いに取り合っていた場合の全日の総期待利得の現在価値は,(ア)と同様に
\[60+60d+60d^2+60d^3+⋯\]
となる。(ここでは敢えて割引現在価値の公式は使わない。)
次に,全日が「1期目に(高に対する最適反応の)中をとり,2期目以降は(イ)の厳罰戦略に従う」という戦略に自分だけ変えた場合の,総利得の現在価値を求める。この場合,2社は (中, 高)→(低, 低)→(高, 高)→(高, 高)→∙∙∙と3期目に(高, 高)に戻る(左側が全日,右側が新日の行動)。従って,厳罰戦略から逸脱した場合の総利得の現在価値は
\[80+10d+60d^2+60d^3+⋯\]
となる。
以上を比べて,均衡で厳罰戦略から逸脱しない条件は
\[60+60d+60d^2+60d^3+⋯≥80+10d+60d^2+60d^3+⋯\]
となる。両辺共に(3期目以降の利得となる)\(d^2\)以降の係数は(高, 高)からの利得である\(60\)が続き相殺できるので,この条件は\(60+60d≥80+10d\)と単純にできる。これを解くと\(d≥2/5\)を得る。
追記)ちなみに,もしも全日が2期目では厳罰戦略に戻らずに,(やはり低に対する最適反応でもある)中を取り,3期目から厳罰戦略に戻ったとしよう。この場合,2社は (中, 高)→(中, 低)→(低, 低)→(高, 高)→(高, 高)→∙∙∙と,(中, 低)を取るのが3期目になり,(高, 高)に戻るのが4期目になる。この場合の総利得の現在価値は
\[80+20d+10d^2+60d^3+⋯\]
となる。2期目に厳罰戦略に従うときに比べて,2期目が(低, 低)ではなく(中, 低)なので利得が\(20-10=10\)増えるが,3期目は(高, 高)に戻らず(低, 低)なので利得が\(60-10=50\)減る。従って,戻るのを1期遅らせることで現在価値は\(10d-50d^2=d(10-50d)\)だけ変わる。\(d≥2/5\)なら\(10-50d<0\)なので,この現在価値の差も負になる,つまり1期遅らせると更に損する。2期以上遅らせたときに\(d≥2/5\)ならもっと更に損することも同様に言える。
以上の分析では均衡経路のみを考えているのでナッシュ均衡の条件になっている。オンラインコンテンツ6.1で説明している部分ゲーム完全均衡なら,全ての部分ゲームで厳罰戦略から一回逸脱で得しない条件を求めることになる。やはり,この問題の利得の設定の下では,部分ゲーム完全均衡を考えても条件は(厳しくはならず)同じになるのだが,それはオンラインコンテンツ6.1の問題としよう。
問題6.3(戦略の工夫:有限)
(ア)3年目は最終期なので,3年目の行動は1年目,2年目の利得に影響を与えない。従って,1年目,2年目,3年目の利得和を最大化するためには,2年目までの結果に関わらず,3年目でステージゲームの最適反応を取っていなければならない。(高, 高)はステージゲームのナッシュ均衡ではないため,後ろ向き帰納法による3年目の解にはならない。
(イ)ステージゲームの純粋戦略ナッシュ均衡は,(低, 低)と(中, 中)の2つ。前者での利得は各社2,後者は各社4なので,アメとして用いられる均衡は(中, 中),ムチとして用いられる均衡は(低, 低)。
(ウ)3年目は最終期なので,3年目ではステージゲームの最適反応を取ることで,1年目2年目3年目の利得和を最大化できる。1,2年目ともに(高, 高)が実現していたら,相手が中を取るので自分も中を取るのが最適である。1,2年目がそうでないなら,相手が低を取るので自分も低を取るのが最適である。まとめると,3年目のステージゲームにおいて,相手がアメムチ戦略を取っているならば自分もアメムチ戦略を取ることが最適である。
(エ)1年目に結果が(高, 高)だった場合,相手は2年目に高を取る。このとき自分も2年目に高を取るなら,2年目が(高, 高)となり,そして3年目にアメ均衡(中, 中)を実現できるので,2年目と3年目の利得和は6+4=10となる。他方で,(高に対する最適反応の)2年目に中を選ぶと,2年目に(中, 高)を実現できるが3年目にムチ均衡(低, 低)が実現してしまうので,利得和は7+2=9となる。これは高を選んだ場合よりも低い。また,2年目に低を選ぶと,2年目に高に対する最適反応を取っておらず,それなのに(2年目に高を取った時と違って)3年目はムチ均衡になるので,利得和は中を選んだときよりも低くなる。以上より,1年目の結果が(高, 高)で2年目に相手が高を取るならば,自分も2年目に高を取るのが最適である。
1年目の結果が(高, 高)以外だったケースを考えよう。1年目の結果が(高, 高)ではないので,2年目で何を取ろうが3年目ではムチ均衡(低, 低)が実現する。従ってこのケースでは2年目に撮る手を決めるには,2年目のステージゲームの利得だけ考えればよい。このケースでは2年目に相手は低を取る。その最適反応は低なので,やはり自分も低を取るのが2年目の最適な選択になる。
以上の2つのケースをまとめると,2年目のステージゲームにおいて,相手がアメムチ戦略を取っているならば自分もアメムチ戦略を取ることが最適である。
(オ)アメムチ戦略によれば相手は1年目に高を取る。このとき1年目で自分も高を取るのが最適であることを示す。1年目に自分も高を取った場合の1年目,2年目,3年目の利得和は16である。何故なら,高を取ることで,1年目に(高, 高)→2年目に(高, 高)→3年目に(中, 中)という結果を実現できるからである。一方1年目に高に対する最適反応の中を取ると,1年目に(中, 高)を実現できるが,2年目と3年目でムチ均衡(低, 低)が実現してしまう。従って,中を取ると利得和は7+2+2=11となり,高を選んだ場合よりも低くなる。また,1年目に低を選ぶと,1年目に高に対する最適反応を取っておらず,それなのに(1年目に高を取った時と違って)2,3年目はムチ均衡になるので,利得和は中を選んだ場合のそれよりも低い。以上より1年目のステージゲームにおいて,相手がアメムチ戦略を取っているならば自分もアメムチ戦略を取るのが最適である。