高數你考過了嗎？學霸多巴胺神經元拿了A

2021-03-24 07:27

來源：澎湃新聞·澎湃號·湃客

原創 Veronica 神經現實收錄于話題#神經前研 | NeuroHub130個

文獻：Rothenhoefer, K.M., Hong, T., Alikaya, A. et al. Rare rewards amplify dopamine responses. Nat Neurosci (2021).

DOI：https://doi.org/10.1038/s41593-021-00807-7

導讀作者：Veronica | 封面：Rick Ritara

從前有一棵樹叫高數，上面掛了很多人，你有沒有（險些）掛在上面？《概率論和數理統計》這一本薄薄的教程，改變了無數個原本可以通宵打游戲、煲劇的大學夜晚。筆者現在還記得大學時坊間流傳的段子：“二項式在密度函樹下展開標準分布，布里包了兩個釵釵，分別是標準釵和方釵。”

最近，一群來自匹茲堡大學和卡耐基梅隆大學的研究人員發現，我們大腦里的多巴胺神經元，其實是一群能自學成才的學霸。通過記錄恒河猴多巴胺神經元的放電情況，他們發現這些神經元竟然能讀懂統計學概念上的分布特征：這些學霸猴只需要很短時間的學習，就能分辨出每一種情況下的獎勵頻率是均勻分布，還是正態分布的，然后做出最大化獎勵的選擇。

研究人員給猴設計了一個“被動觀看任務”（passive viewing task），讓猴子在兩種不同的視覺提示（cue）中做選擇。這兩種提示分別對應兩種不同概率分布的糖水獎勵，一種為均勻分布，一種為正態分布。在均勻分布的情況下，猴子喝到0.2ml，0.4ml，0.6ml糖水的概率都是1/3；而在對稱正態分布下，喝到0.2ml糖水的概率是2/15，0.4ml的概率是11/15，0.6ml的概率是2/15。為了喝到最多的糖水，它們必須從每一次試驗中強化學習，掌握每一個提示背后的分布秘密。

- Rothenhoefer et al., Nat Neurosci. -

猴子的表現著實令人震驚。雖然第一次試驗時是隨機選擇其中一個視覺提示，但很快它們就學會了選擇糖水更多的那一個。研究者通過標準的強化學習模型（standard reinforcement learning model）計算發現，不論是正態分布模塊，還是均勻分布模塊，學霸猴們都有一條剛開始不斷上升（active learning phase）、到后期慢慢接近平臺期的學習曲線（asymptotic phase）。有意思的是，學霸猴學會正態分布模塊的時間比學會均勻分布模塊的更短，表現也更好。不僅如此，如果在正態分布模塊的早期學習階段，猴子遇到概率很小的糖水獎勵時，它的瞳孔大小也會隨之變化，表明此時的學霸猴更警醒，喚醒水平更高。

那么多巴胺神經元在學習中的表現如何呢？研究人員在任務中同時記錄了多巴胺神經元的動作電位。他們發現，如果對學霸猴來說，兩種選擇得到的糖水期望價值相同的時候（即期望效用相同），多巴胺神經元的放電水平在兩種分布下的反應強度也是相似的。但如果正態分布中出現了小概率的0.6ml的糖水獎勵時，多巴胺神經元的放電水平則會變得高于在均勻分布中出現同樣多糖水時的放電水平。相反的，如果正態分布中出現了小概率的0.2ml的糖水獎勵，多巴胺神經元的放電水平就會低于均勻分布中同樣是0.2ml糖水時的放電水平。也就是說，多巴胺神經元的反應在正態分布中的正反兩個方向都被放大了：糖水出乎意料多的時候，細胞反應更強，出乎意料少的時候，細胞反應更弱。