widgets (詳説)意思決定:探索と反実仮想選択のモニター

複雑で変化する環境の中での意志決定では、搾取(exploitation)と探索(exploration)の切り替えが大きな要素である。 搾取/探索の選択は反実仮想選択(counterfactual choice、選択しなかった行為あるいは行為の標的)のモニターと密接に関係している場合が多い。 反実仮想選択の価値のモニターには、ヒトでは前頭極外側部が中心的な働きをするとの事実が集まっている。 マカクではヒトの前頭極外側部に対応する脳領域はない。マカクでは前頭前野外側部前方または前帯状皮質が反実仮想選択の価値のモニターをしているとの結果がある。 探索へのスイッチを研究するには、探索対象の価値予測誤差が手元の対象のそれよりずっと大きい必要があるが、これまでの脳科学実験で用いられたタスクでは必ずしもそうなっていない。 また、反実仮想選択のモニターでは、間接的な証拠から仮想選択の価値を推測することが大事だが、これまでの実験では毎回、あるいはひとつ前の試行で示されていたりして不十分である。

Quilodran..Procyk (2008) Behavioral shifts and action valuation in the anterior cingulate cortex. Neuron 57: 314-325.

マカクでの細胞活動記録。4つの標的位置のひとつにタッチする。ひとつの位置だけ報酬が与えられる。4回成功すると報酬標的位置が変わる。繰り返し期の終わりは手掛かりで示した。 探索期に多くの ACC 細胞がフィードバックに反応した。繰り返し期には反応は試行の初めのレバー押しに移動した。

Pearson..Platt (2009) Neurons in posterior cingulate cortex signal exploratory decisions in a dynamic multioption choice task. Curr Biol 19: 1532-1537.

マカクでの細胞活動記録。注視点を 0.5 秒注視すると4個の標的がでる。 ひとつを選んでサッケードする。1秒後に報酬が出る。 各標的の報酬量は毎試行少しずつランダムに変わる(だからサルはどの標的も時々は選ばないと損をする)。 試行の間で PCC 細胞活動を比べた。前試行と同じ標的を選ぶ exploit 選択の前後に高い活動を示した細胞と、前試行と異なる標的を選ぶ explore 選択の前後に高い活動を示した細胞があった。

Hayden..Platt (2009) Fictive reward signals in the anterior cingulate cortex. Science 324:948-950.

Science 324:948-950.

マカクでの細胞活動記録。8 個の標的のひとつにサッケード。7 個は確定小報酬量。1 個は不確定大報酬量。サッケード後に全ての標的の報酬量を提示。 大報酬量の標的は、次試行には隣位置に移動(40%)または同じ位置に留まる(60%)。

多くの ACC 細胞の報酬量フィードバックへの反応は、実際にもらう報酬量、および反実仮想選択の報酬量に正相関した。 またこの活動は、次試行でサルが最適標的を選ぶ確率に正相関した。

Hayden..Platt (2011) Surprise signals in anterior cingulate cortex: neuronal encoding of unsigned reward prediction errors driving adjustment in behavior. J. Neurosci. 31: 4178-4187.

J. Neurosci. 31: 4178-4187.

ふたつの標的のひとつを選ぶ。それぞれの標的は大報酬の確率を青の長さ(小報酬の確率を赤の長さ)で示す。 ときどき報酬確率表示を部分的にマスクする。サルは通常は大報酬確率大の標的を選ぶ。 しかし、確率小の報酬を得た後の試行では、大報酬確率小の標的をより頻繁に選んだ。 予想外の報酬(大であれ小であれ)を得た後、サルは戦略を変え探索をすると解釈した。 ACC 細胞の報酬への反応は、確率小の報酬が出たときに(大でも小でも)大きかった。

Boorman..Rushworth (2009) How green is the grass on the other side? Frontopolar cortex and the evidence in favor of alternative courses of action. Neuron 62:733-743.

ヒト fMRI。左右の標的のどちらかを選ぶ。報酬量はランダムで試行ごとに示される。報酬確率は徐々に変化する(そのためある程度予想できる)。 前頭極外側部の活動は非選択標的の相対的報酬確率(非選択標的の報酬確率―選択標的の報酬確率)に正相関した。 ITI 期のこの活動の大きさは次の試行における switch の確率と正相関した。 前頭極外側部から頭頂葉 IPS および運動前野への機能的結合は switch 試行の前に高まった。一方、腹内側 PFC は現在の試行での選択標的の相対的報酬期待値(確率 x 量)を表した。

Boorman..Rushworth (2011) Counterfactual choice and learning a neural network centered on human lateral frontopolar cortex. PLoS Biol. 9:e1001093.

ヒト fMRI。顔、体、建物のどれかを選ぶ。報酬量はランダムで試行ごとに示される。確率は徐々に変化する(そのためある程度予想できる)。 選択後に非選択標的についても報酬のあり/なしを示した(日常生活と異なる)。 前頭極外側部、背内側前頭葉、後内側皮質(頭頂葉)は非選択標的のうち大きかった方の報酬確率を表現した。 報酬の有無が提示されたときは報酬確率の予測誤差を表した。

Boorman..Behrens (2013) Ventromedial prefrontal and anterior cingulate cortex adopt choice and default reference frames during sequential multi-alternative choice. J. Neurosci. 33:2242-2253.

ヒト fMRI。Boorman et al (2011)と同じ課題。報酬量は試行ごとに示される。確率は徐々に変化する(そのためある程度予想できる)。 報酬量 × 予想確率が最大の標的を選ぶ選択モードに加え、予想確率が最大の標的を選ぶ選択モード(default mode)があった。 vmPFC、mid-cingulate、PCC の活動は選択した標的の期待価値(報酬量 × 予想確率)と2番目の標的の期待価値(報酬量 × 予想確率)の差に正相関した。 dACC の活動は default mode での最善標的の価値(予想確率)と2番目標的の価値(予想確率)の差に逆相関し(差が小さいほど活動が大きく)、選択した標的の価値(報酬量 × 予想確率)と2番目の標的の価値(報酬量 × 予想確率)の差に弱く正相関した。 dACC は default mode を破ってその試行での最大価値標的を選ぶ傾向の大きさを表現すると議論。

Kolling..Rushworth (2012) Neural mechanisms of foraging. Science 336:95-98.

Science 336:95-98.

ヒト fMRI。まず、提示された2択のどちらかを選ぶ「今の選択枝から選択」、別枠に示された6個の中のランダムな2個が次に選択肢として示される「その他の可能性を選択」のどちらかを選ぶ(第1選択)。刺激の報酬量は一定で前もって学習してある。 「今の選択枝から選択」を選ぶと、それぞれの報酬確率が示され(左右の縦棒)、実際に2択のどちらかを選ぶ(第2選択)。第1選択で「その他の可能性」を選択するとサーチコストがかかる。 サーチコストは第1選択の前に別枠の色で表示し、70%の確率で発生する。下の青横棒で蓄積獲得報酬を表示。

dACC の活動は、第1の選択のときに「その他の可能性」の平均価値に正相関し、今の選択枝の平均価値に負相関した。 これは今の選択枝を選択したときも他の可能性を選択したときも同じ。「その他の可能性」を選択したときにはサーチコストにも負相関した。 第2の選択に移っても「その他の可能性」の平均値に正相関した活動を示し続けた。つまり、いつも「その他の可能性選択」の価値を表した。 dACC は今のデフォールトの行為以外の選択の価値を表し、そのような選択肢選択を誘導するという考えを提唱。

Fouragnan..Rushworth (2019) The macaque anterior cingulate cortex translates counterfactual choice value into actual behavioral change. Nat. Neurosci. 17:463-470.

反実仮想選択のモニター課題

マカク fMRI。ヒトでは前頭極外側部が反実仮想選択の価値をモニターしているとの報告がある。ヒトの前頭極外側部はマカクにはないとの示唆がある。 では、マカクは反実仮想選択の情報を使えるか。一方、ACC が行為のスイッチに関わるとの事実がある。ACC は海馬台から投射を受ける。 海馬破壊はタスク間のスイッチを阻害する。海馬台と ACC の反実仮想選択の価値モニターにおける役割は何か。

3 個の標的があり、報酬確率は互いに独立で、徐々に変わる。各試行ではランダムに 2 個の標的が提示され、ひとつを選ぶ。 提示された 2 個の標的の報酬確率の違いが大きいほど、また報酬確率の和が大きいほど、正しい選択(確率の高い標的を選ぶ)の確率が上がり、反応時間が短かかった。

海馬の活動は非提示標的の確率を表現した(この標的が次試行で提示され正しく選択または却下した場合を、間違って判断した場合に比べたとき)。

ACC(かなり前)と外側 PFC の活動は選択した標的の確率に負相関し(判断が難しいほど活動が大きかった)、反現実仮想標的のうち確率の高い方に正相関した。 さらに ACC の活動は次試行での確率の高い方の反現実仮想標的へのスイッチを予告し、確率の低い方の反現実仮想標的へスイッチしないことを予告した(外側 PFC の活動にはこの傾向はなかった)。ACC を TUS(transcranial ultrasound stimulation)で抑制すると、確率の高い標的が非提示の後の試行でこの標的を選ぶスイッチの頻度が減少した。

Abe, Lee (2011) Distributed coding of actual and hypothetical outomes in the orbital and dorsolateral prefrontal cortex. Neuron 70:731-741.

Neuron 70:731-741.

マカクでの細胞活動記録。Rock-paper-scissors game(じゃんけんのように自分の選択とコンピュータの選択の対応で報酬量が決まる)。 3標的のひとつをサッケードで選ぶ。選択後に非選択標的についても仮想報酬を示した。サルの次試行での選択は前試行での仮想報酬の影響を受けた。 背外側 PFC と眼窩野の細胞のフィードバックへの反応が仮想報酬の情報を反映した。