AP心理學課程operant conditioning（操作性條件反射）概念介紹

開學才兩(liang) 個(ge) 月，我們(men) 就已經看到了APer們(men) 對AP心理這門科目深深的吐槽...?

AP心理看似很有趣很容易，結果學起來發現知識點背到天荒地老，最後才考個(ge) 4分？

還記得巴甫洛夫的狗嗎？上一期我們(men) 一起了解了關(guan) 於(yu) classical conditioning（經典條件反射）的概念：

環境中的某些刺激(unconditioned stimulus, 如肉)可以自動地觸發生物體(ti) 的反射反應(unconditioned response, 如狗流口水)。在此基礎上，通過建立起這些刺激和其他刺激物(conditioned stimulus, 如鈴聲)的聯係，生物體(ti) 就能夠學會(hui) 對不同的刺激做出反應。

今天，我們(men) 將要來聊一聊另一種學習(xi) 的方式——operant conditioning（操作性條件反射）。

本文目錄

⊙Skinner Box

⊙Definition of Operant Conditioning

⊙Schedules of Reinforcement

01、Skinner Box 斯金納箱

在給出operant conditioning的定義(yi) 之前，我們(men) 先來了解一種叫做Skinner Box（斯金納箱）的裝置。

Classical conditioning的概念出現後，行為(wei) 主義(yi) 心理學家B.F. Skinner認為(wei) 它有很大的局限性：畢竟狗流口水是在進行conditioning之前就存在的行為(wei) ，不管它是看到肉還是聽到鈴鐺聲流口水，它的行為(wei) 並沒有發生任何的變化啊！

也就是說，classical conditioning並不能解釋新的行為(wei) 的習(xi) 得，比如讓小狗學跳舞。為(wei) 了解釋行為(wei) 的變化是如何產(chan) 生的，Skinner提出了一種理論，他認為(wei) 我們(men) 的行為(wei) 所導致的結果會(hui) 影響我們(men) 的行為(wei) 。

Skinner的理論基礎來自於(yu) 另一位心理學家Thorndike所提出the law of effect：我們(men) 更願意去多做那些帶來好的結果的事情，而更少去做那些帶來負麵結果的事情。

比如，因為(wei) 好好複習(xi) AP心理和認真讀這篇推送可以幫助我們(men) 在5月的考試中取得5分(hopefully!)，所以同學們(men) 就會(hui) 投入更多的時間複習(xi) AP心理和閱讀我們(men) 的優(you) 秀推送！

【非重點概念】

The Law of Effect: behaviors that are followed by consequences that are satisfying to the organism are more likely to be repeated, and behaviors that are followed by unpleasant consequences are less likely to be repeated (Thorndike, 1911).

不常考，隻是為(wei) 了輔助大家的理解~

口說無憑，Skinner需要通過嚴(yan) 謹的科學實驗去驗證他的理論，而他的實驗的一個(ge) 重要組成部分就是他所發明的Skinner Box。這是一種特殊的裝置，它一般含有一個(ge) 控製杆(bar/lever)，箱子裏的動物在按壓這個(ge) 杆子後，動物就可以通過一個(ge) 窗口獲取食物或者水。

開學兩(liang) 個(ge) 月，AP心理已經學懵了？

【重點概念】

Skinner Box: a special contraption which has a way to deliver food to an animal and a lever to press or disk to peck in order to get the food.

小白鼠進入Skinner Box以後，這摸摸、那瞅瞅，在它無意間按到控製杆的時候，它驚奇地發現居然會(hui) 有水和食物的出現哎！它再試探性地按了按，好家夥(huo) ，又出現了水和食物！

於(yu) 是，在不斷的重複和試探中，小白鼠逐漸建立起了按控製杆和出現水及食物之間的關(guan) 係，導致它按壓控製杆這個(ge) 行為(wei) 發生的頻率不斷增加。這就很好地應證了Skinner提出的後果可以對行為(wei) 產(chan) 生影響的理論。

02Definition of Operant Conditioning 操作性行為(wei) 反射

有了前麵的鋪墊，operant conditioning的定義(yi) 就很好理解了，它指的就是這樣一種學習(xi) 方式：生物體(ti) 將行為(wei) (behavior)與(yu) 行為(wei) 所導致的結果(consequence)聯係起來，取決(jue) 於(yu) 這個(ge) 結果是正麵的或者負麵的，從(cong) 而更多或更少地去做這個(ge) 行為(wei) 。

【重點概念】

Operant Conditioning: a kind of learning based on the association of consequences with one’s behaviors.

Operant conditioning有兩(liang) 種類型：reinforcement（強化）和punishment（懲罰）。區分它們(men) 非常簡單，我們(men) 既可以通過行為(wei) 所導致的結果的好壞，也可以通過行為(wei) 發生頻率的變化判斷：

開學兩(liang) 個(ge) 月，AP心理已經學懵了？

不知道大家小時候有沒有這樣的經曆，父母為(wei) 了鼓勵孩子做家務，會(hui) “明碼標價(jia) ”每項家務的“工資”，比如掃個(ge) 地10元、洗碗15元、洗衣服12元之類的，小朋友就屁顛屁顛地去做家務了，因為(wei) 可以領零花錢，這就是一個(ge) reinforcement的例子：小朋友做家務→可以領錢→領錢讓小朋友快樂(le) →小朋友做家務做得更多。

不過，這麽(me) 做的風險是可能會(hui) 挫傷(shang) 孩子的intrinsic motivation（內(nei) 在動機），這在AP心理中的motivation一章中會(hui) 有詳細地探討。

03Schedules of Reinforcement強化程序

雖然通過reinforcement我們(men) 總能使一個(ge) 行為(wei) 出現的頻率增加，但是多久進行一次強化、基於(yu) 什麽(me) 量進行強化，這會(hui) 對行為(wei) 出現的頻率(response rates)和持續性(consistency)產(chan) 生影響。

我們(men) 可以基於(yu) 行為(wei) 出現的次數(ratio)，也可以基於(yu) 時間周期(interval)給予強化物；我們(men) 可以在行為(wei) 出現固定的次數、固定的時間流逝後(fixed)給予強化物，也可以隨機(variable)地給予。

由此形成了四種搭配，也就是四種schedules of reinforcement:

讓我們(men) 來通過一些例子更好地區分不同的schedules。

1) Fixed-ratio schedule：也就是你的這個(ge) 行為(wei) 出現n次（n是固定的）我就給你一個(ge) 獎賞：在工廠裏做工，按加工完成的成品數量發工錢就屬於(yu) FR，比如每包裝好100袋零食就可以得到20元工錢，給工錢是根據包裝零食這一行為(wei) 出現的次數，屬於(yu) ratio；隻要包裝零食完成100次，就可以拿到錢，得到獎賞需要出現的行為(wei) 次數是固定的，屬於(yu) fixed。

2) Variable-ratio schedule：當你做這件事情5次時，可能就可以得到獎賞，下一次得到獎賞卻可能是你做了50次後，再下一次也許是2次；slot machine（俗稱老虎機）就是一個(ge) 例子。誰也不知道下一次得到獎賞是嚐試多少次以後，但正是這樣的不確定性促使人們(men) 一直想去賭，心裏總想著：萬(wan) 一下次就可以得大獎呢？

3) Fixed-variable schedule：經過一段固定的時間就給一次獎賞：月結工資(monthly salary)就屬於(yu) 這種獎賞方式，每經過一個(ge) 月就發一次錢，但可想而知大家工作的積極性大概率就沒那麽(me) 強了，反正拿多少錢也與(yu) 工作強度、工作質量無關(guan) ，一個(ge) 月一過就可以拿一次錢。

4) Variable-interval schedule：也許第一次過兩(liang) 天得到了強化，下一次或許是三十天以後，再下一次又可能是五天以後，時間不定：是不是很像pop-quiz的概念？隨堂小測，測試隨時可能出現，大家隻能默默地每節課都認真複習(xi) 了。

下麵這幅圖是通過實驗得到的不同的schedules和a)行為(wei) 出現的頻率(response rates)；b)行為(wei) 的持續性(consistency)之間的關(guan) 係。

在同樣的時間內(nei) ，number of responses越大代表著response rates越高，也就是說圖中的curve的斜率越大response rates越高；curve橫跨的時間越長表示行為(wei) 的持續性越強。

請仔細觀察下圖，你發現了什麽(me) 規律嗎？

開學兩(liang) 個(ge) 月，AP心理已經學懵了？

希望你發現了以下規律：【重點規律】

開學兩(liang) 個(ge) 月，AP心理已經學懵了？

注：這裏的大於(yu) 號和小於(yu) 號所比較的是效果~

其實這些規律是很好理解的。Response rates越大，行為(wei) 出現的頻率越高，也就說明生物習(xi) 得此行為(wei) 越快，為(wei) 什麽(me) ratio和fixed schedules效果比較好呢？

生物發現獎賞的出現和自己的某一行為(wei) 出現的次數有關(guan) (ratio)，而且關(guan) 係還非常固定(fixed)，為(wei) 了得到獎賞，生物就會(hui) 非常高頻率地去做這一行為(wei) ；不過，因為(wei) 生物很容易地就發現了這個(ge) 規律，後期可能就有所懈怠了，持續性就會(hui) 比較弱。

而對於(yu) interval和variable schedules來說，生物習(xi) 得行為(wei) 的速度會(hui) 比較慢，這是因為(wei) 獎賞的出現看起來很隨機，跟自己的行為(wei) 好像沒啥太大關(guan) 係，不太確定自己的行為(wei) 是否可以帶來獎賞，去做這一行為(wei) 的動機比較小，所以行為(wei) 出現的頻率會(hui) 比較小。

但是正是因為(wei) 這種隨機性，就像上文所提到的老虎機/賭博的例子一樣，大家抱著賭的心態一直期待著下一次可以得到獎賞，就會(hui) 不斷的去嚐試，從(cong) 而導致行為(wei) 的持續性更強。

結語

本期我們(men) 一起了解了operant conditioning的基本概念，以及不同的強化程序對習(xi) 得速度和持續性的影響。在下一期，我們(men) 將學習(xi) 如何區分不同類型的強化和懲罰，be ready！

【競賽報名/項目谘詢+微信：mollywei007】