widgets (詳説)意思決定:予測報酬価値による選択

行為の選択としての意思決定には多くの場合前頭前野が重要である。Perceptual decision には前頭前野は必ずしも必要ない。行為選択には刺激ー報酬連合による選択(前頭眼窩野が重要)、行為ー結果連合を使ったゴール志向的選択(内側前頭前野が重要)、単なるマッピング以上の複雑な規則を適用する選択(外側前頭前野が重要)、複数の規則を切り替える、または新しい規則を作る場合(背内側前頭前野や前頭極が重要)がある。いずれにせよ、複数の行為からひとつを選ぶ場合は、それぞれの行為の結果の良さを予測して比較することになる。結果は多くの場合は報酬である。現実世界では複数の異なる種類の報酬の価値を共通な量(共通貨幣と呼ばれる)に変換して比べる必要があり、これには前頭眼窩野内側部(前頭前野腹内側部)が重要と報告されている。

刺激―行為連合による行為選択と行為―結果連合による行為選択の違い、行為シーケンスの学習に関連するタスクについても紹介する。

予測報酬価値による行為(または行為対象)選択(共通貨幣要素を含む)

Padoa-Schioppa, Assad (2006) Neurons in the orbitofrontal cortex endoce economic value. Nature 441: 223-226.

異なる種類の報酬をもたらす行為の間の選択

注視中に左右に2セットの四角が提示される。四角の色がジュースの種類を、数が量を示す。注視点が消えたらサルはどちらかへサッケードすることで選択する。数の比を変えて、サルにとってのそれぞれのジュースの主観的価値を推定する。前頭眼窩野から細胞活動を記録。一方の選択肢の主観的価値(offer value)を表す細胞、選んだ選択肢の主観的価値(chosen value)を表す細胞、選んだ選択肢のジュースの種類(chosen juice)を表す細胞があった。これらの細胞はサッケード方向は表さなかった。価値の間の選択で、行為の選択でないと議論。

Xie, Padoa-Schioppa (2016) Neuronal remapping and circuit persistence in economic decisions. Nat Neurosci 19: 855-861.

Padoa-Schioppa&Assad (2006)と同じ課題だが、2ブロックで異なるジュースのセットを用いる。特定のジュースの主観的価値(offer value)および選択したジュース種(chosen juice)を表す眼窩野細胞の活動が、ジュースのセットが変わったときに消えるかを問うた。細胞は2ブロックで活動した。それぞれのブロックの中でサルが好むジュースまたは好まないジュースの主観的価値および選択を、ふたつのブロックに共通に表した。好みの相対的序列が眼窩野における基本的な基準であると議論。

Ballesta..Padoa-Schioppa (2020) Values encoded in orbitofrontal cortex are causally related to economic choices. Nature 588:450-453

Nature 588:450-453

ふたつの選択肢を経時的に提示した。四角の色がジュースの種類を、数が量を示す。選択肢提示中に OFC に微小電気刺激。100μA 以上の強い電流を与えると、電気刺激を与えた選択肢を選ぶ確率が低下し、2番目の選択肢提示中の電気刺激では選択のばらつきも増加した(電気刺激により主体的価値の生成が妨害され、加えて2番目の選択肢提示中の刺激では価値の比較が妨害された)。ふたつの選択肢を同時呈示して 50μA 以下の弱電流で刺激すると単位量当たりの報酬価値が低い方のジュースを持つ選択肢を選ぶ確率が増した。OFC は異なる種類の報酬を、同一の価値単位でコーディングしていると議論。

Papageorgiou..Rushworth (2017) Inverted activity patterns in ventromedial prefrontal cortex during value-guided decision-making in a less-is-more task. Nat Commun 8:1886.

Nat Commun 8:1886.

マカク破壊と fMRI。ふたつの刺激から一つを選ぶ。刺激1>果物、刺激2>野菜、刺激3>果物+野菜。正常サルでは刺激1対刺激3では 70%刺激1を選んだ(主観的価値が客観的価値と異なったと議論)。OFC 破壊により、刺激1対刺激3の選択がチャンス(約 50%)になった。

予測報酬量による行為選択のメカニズムを調べる研究(共通貨幣要素を含まない)

Rich, Wallis (2016) Decoding subjective decisions from orbitofrontal cortex. Nat Neurosci 19: 973-980

Nat Neurosci 19: 973-980

注視後 2 個の刺激が出る。どちらかの刺激を選ぶ(450 ミリ秒間注視)。次に色四角が出たらジョイステックを色が指定する側(左/右)に傾けると、刺激ごとに決まった量の報酬が出る。刺激は8個、報酬量は4段階。刺激が 1 個だけ出る試行もある(選択なし)。

15 個の電極を前頭眼窩野に刺入し、平均して 10 個の細胞と 10 箇所の局所電場電位を記録。局所電場電位は6周波数帯域の信号強度で定量化。まず 1 刺激試行の刺激提示中のデータを使い、同時に記録した細胞活動と局所電場電位のセットから予想報酬量を識別するように LDA(linear discriminant analysis)を訓練。次にこの LDA で 2 刺激試行の刺激提示中の活動が表す予測報酬量を 20 ミリ秒区間ごと決めた。最終的に選択した刺激が示す予測報酬量の表現と非選択刺激が示す予測報酬量の表現が交互に現れた(1回の持続時間はメディアンで 65 ミリ秒)。選択刺激の表出時間の方がやや長かった。前頭眼窩野内でふたつの刺激の価値を経時的に比較していると議論。

Sugrue..Newsome (2004) Matching behavior and the representation of value in the parietal cortex. Science 304: 1782-1787

サルは二つの標的のどちらかにサッケード。標的ごとに報酬確率が決まっていて、それがときどき変わる。報酬はサルが選択しなくても残り、次の選択のときに与えられる(これが結果に効く)。サルの選択の比率は報酬確率の比率に従った。LIP 野から細胞活動を記録。

Amiez..Procyk (2006) Reward encoding in the monkey anterior cingulate cortex. Cerebral Cortex 16:1040-1055.

ふたつの視覚刺激に 1.2ml と 0.4ml の報酬を確率的(70:30)に連合させた。新しい刺激ペアーを導入すると、サルは試行錯誤の後、平均報酬が多い方の刺激を続けて選ぶようになる。前帯状溝背側壁の約1/4の細胞の活動が報酬付与直前に報酬量期待値を表した。ムシモルの両側前帯状溝背側壁注入で平均報酬が多い方の刺激を選ぶ確率はチャンスレベルに落ちた。Rudebeck et al. (2008)と違う結果。

Matsumoto,..Tanaka (2007) Medial prefrontal cell activity signaling prediction errors of action values. Nat Neurosci 10: 647-656.

Nat Neurosci 10: 647-656

Visual block で刺激1と報酬を連合。続く action-learning block で正しい行為(左レバー押しまたは右レバー押し)を学習。正しい行為には刺激1がフィードバック。間違った行為には刺激2がフィードバック。内側前頭前野の細胞がフィードバック提示期に行為価値の予測誤差を表す活動を示した。正の誤差、負の誤差、誤差の絶対値を表す細胞があった。

McCoy, Platt (2005) Risk-selective neurons in macaqu eposterior cingulate cortex, Nat Neurosci 8: 1220-1227.

ふたつの標的のどちらかにサッケードする。一方の標的を選んだときの報酬量は一定。他方の標的を選んだときの報酬量はふたつの量のどちらか(ランダム)。ランダム報酬量標的の位置とふたつの報酬量の差はブロックごとに変わる。PCC (posterior cingulate cortex)の細胞活動は報酬量の差を表した。

Hayden..Platt (2008) Posterior cingulate cortex mediates oubcome-contingent allocation of behavior, Neuron 60: 19-25.

McCoy&Platt (2005)と同じタスク。サルの選択、および PCC の細胞活動が、前試行の報酬量の影響を受けた。

Heilbronner, Platt (2013) Causal evidence of performance monitoring by neurons in posterior cingulate cortex during learning. Neuron 80:1384-1391.

刺激を左右へのサッケ―ドへマッピングさせる(刺激1と2なら左、刺激3と4なら右)。毎日使う刺激セットと日ごとに導入する新規刺激セットを使う。ひとつのセットのうち刺激1と3は報酬量が多く、刺激2と4は報酬量が少ない。報酬量の多い刺激の学習の方が報酬の少ない刺激の学習より速い。帯状皮質後部(PCC)の細胞は誤答フィードバックの後に活動。この活動は新規刺激、報酬量少刺激で大きい。この領域にムシモルを注入すると、新規セットの報酬量少刺激での学習が悪くなった。報酬量が多いときは他のシステムで学習可能だが、報酬量が少ないときは PCC が必要と議論。

刺激―行為連合による行為選択と行為―結果連合による行為選択

Matsumoto..Tanaka (2003) Neuronal correlates of goal-based motor selection in the prefrontal cortex. Science 301: 229-232.

Science 301: 229-232.

Differential outcome effects を使って目的試行的な行為選択を実現。ふたつの刺激に異なる行為(Go と Nogo)をさせる。一方の行為にはジュース、もう一方の行為には音による成功告知のみをフィードバック。刺激―行為―結果の組み合わせが約 40 試行ごとに交代。両方の行為にジュースを与えると、学習が著しく遅くなること(Differential outcome effects)で、刺激―行為連合による学習でなく、刺激から結果を予測し、その結果と連合した行為を選んでいたことを確かめた。内側運動前野の細胞の刺激後の反応が特定の行為―結果の組み合わせを表現した。

Rudebeck..Rushworth (2008) Frontal Cortex Subregions Play Distinct Roles in Choices between Actions and Stimuli. J Neurosci 28:13775-13785.

マカク破壊実験。決定的逆転学習と確率的逆転学習。2 個の行為(レバー上げ/右寄せ)から一つを選ぶ課題と二つの刺激から一つを選ぶ課題。OFC 破壊は刺激—報酬連合学習を傷害し、ACC 破壊は行為—報酬連合学習を傷害した。

行為シーケンスの学習

Tanji J, Shima K.(1994) Role for supplementary motor area cells in planning several movements ahead. Nature. 371(6496):413-6.

3 個のハンドル操作行為(push, pull, または turn)のシーケンスを学ぶ。初めの5回は手掛かり刺激の色で行為ごとになすべき操作を示すが、その後は手がかりなしで実行。4 個のシーケンスを繰り返し学習させた。1次運動野はそれぞれの行為に対応した活動しか示さないが、補足運動野には特定のシーケンスを示す細胞があった。例えば特定のシーケンスの開始前に活動する細胞、pull の前の push のときにだけ活動する細胞など。

Shima K, Isoda M, Mushiake H and Tanji J (2007) Categorization of behavioral sequences in the prefrontal cortex. Nature 445:315-8

押す/引く/回すを4回繰り返す。まず視覚誘導で学習し、次に視覚手掛かりなしに行う。3カテゴリーの 11 個のシーケンスを学習・遂行させた。Paired の 4 個は push-push-turn-turn など。Alternative の4個は push-turn-push-turn など、four-repeat の 3 個は push-push-push-push など。主溝の両壁と縁から細胞活動を記録し、第1の動き開始前の準備期の活動を解析。多くの細胞がシーケンスのカテゴリー特異的活動を示した。

Procyk..Joseph (2000) Anterior cingulate activity during routine and non-routine sequential behaviors in macaques. Nat Neurosci 3:502-508.

3個の標的を正しい順番で触ると報酬が得られる。正しい順番を試行錯誤で見つける。正答を3回繰り返すと、正しい順番が変わる。まず標的を 0.9-1.2 秒間固視すると標的が白くなる(Go 手掛かり)。そしたら標的に触る。dACC から記録。1)標的位置に関係なく現在の順番を表す活動を示す細胞があった。2)正しい順番の探索・学習期に顕著に活動する細胞と繰り返し期に顕著に活動する細胞があった。