ChatGPT自誕生以來已經火遍半邊天,人們(men) 不斷發掘它在各領域的應用。最近,機構的導師Tom Crawford在YouTube上分享了他用ChatGPT考牛津入學考試的實驗,引發了大量數學愛好者的關(guan) 注。今天,機構就帶大家詳解Tom老師的實驗,試著用ChatGPT通過牛津大學入學考試!
導師介紹
Tom Crawford是牛津大學St Edmund Hall 數學係研究員,專(zhuan) 攻應用數學,並在 Paul Linden 教授的指導下在劍橋大學完成了流體(ti) 動力學博士學位,並於(yu) 2012 年獲得牛津大學數學學士學位。
除了教學工作外,Tom還與(yu) Teddy Hall的外展團隊密切合作,定期在英國各地的學校和大學進行演講。Tom同時也是一名搖滾愛好者,他的個(ge) 人網站屢獲殊榮,內(nei) 含視頻、播客、謎題和文章,旨在讓所有人都能理解和理解數學。Tom還與(yu) BBC 、YouTube 頻道Numberphile 都有合作。Numberphile 是YouTube 上最大的數學頻道,擁有過百萬(wan) 的訂閱者。
用Chat GPT考牛津?
牛津大學數學入學考試簡稱MAT,這是所有牛津數學係申請者都需要參加的考試,通過考試方能申請牛津大學的本科數學課程。
MAT沒有特定的及格分數,但是學生的得分在錄取決(jue) 策中具有非常重要的作用。MAT總共有5個(ge) 大題,滿分100分。第一部分是10道選擇題,共計40分。接下來的四個(ge) 大題每題15分。
Tom老師目前是牛津大學St Edmund Hall 招生團隊的一員,他非常好奇像ChatGPT一樣的人工智能對於(yu) MAT考試的應試能力。所以,他使用ChatGPT做了2021年牛津MAT真題。
Chat GPT應試表現
01、第一題
第一道題是一道關(guan) 於(yu) 十二邊形的幾何題。Tom直接複製了題目,交給ChatGPT作答。
ChatGPT不僅(jin) 給出了答案,並且分享了答題思路——
“為(wei) 了找到正十二邊形的麵積,我們(men) 可以將它分成12個(ge) 全等的等腰三角形。每個(ge) 三角形的中心角等於(yu) 30度開始,每個(ge) 三角形的底邊是十二邊形的一側(ce) 是的,高度是從(cong) 圓心到其中一側(ce) 的距離。為(wei) 了找到每個(ge) 三角形的高度,從(cong) 中心圓到十二邊形的其中一條邊的中點畫線,以十二邊形一側(ce) 的一半和圓的半徑形成一個(ge) 直角三角形,我們(men) 發現每個(ge) 三角形的高度是 1 的平方根減去二分之一,然後我們(men) 將其形成一個(ge) 直角,麵積達到三角形是四分之三的平方根,因此正十二邊形的麵積是三。”
可以看到,在評分守則的答案裏,這道題的答案是(e)3。也就是說,ChatGPT得出了正確的答案。
但是,Tom老師指出了ChatGPT答題過程中存在的問題:假設底部三角形是直角三角形——“這是一個(ge) 相當大的假設,你不能做出這樣的假設。雖然它在這裏說的是平均值。”這其中肯定涉及錯誤的高度。所以Tom老師表示:“我必須給第一個(ge) 問題打零分,因為(wei) ChatGPT的答題過程存在錯誤。”
02、第二題
第二題是關(guan) 於(yu) 積分的。由於(yu) 不能直接複製題目給ChatGPT,Tom對於(yu) 題目進行了拆解。
以下是ChatGPT對這道題的回答:
Tom檢查了ChatGPT的答題過程,發現其中不止一個(ge) 代數錯誤,而且有一些不通順的答題邏輯。最後核對答案,很明顯,ChatGPT錯得有些離譜了。
“不幸的是,這又是一個(ge) 零分回答。當然,這個(ge) 問題是比較複雜的,ChatGPT在理解題意上可能也會(hui) 存在問題。”
03、第三題
第三題的題目如下。
對於(yu) 這一題,ChatGPT提供了嚴(yan) 謹的解題方法,逐一驗證了各個(ge) 選項的答案,通過驗證和排除終於(yu) 選擇出了正確答案。
“終於(yu) 它得出了正確答案。我應該給它這道題的分數。”
接下來,Tom給ChatGPT逐一提供了2021年的MAT考題,並得出了屬於(yu) ChatGPT的成績單。在答題過程中,ChatGPT一度崩潰。“這在考試中不是很好——ChatGPT似乎壞了,就像在考試中崩潰的學生。”
ChatGPT的最終得分是48分。而MAT考生的平均分數是69.5分,所以,這並不是一個(ge) 有競爭(zheng) 力的分數。
Tom最終評論說:“48分是個(ge) 很糟糕的分數,我是很苛刻的。有一些題目的答題是很有趣的,但選擇題的答題真的非常糟糕。總體(ti) 來看,40分的選擇題它隻獲得了12分。這可能是因為(wei) 它對於(yu) 題目和選項的理解有誤。
所以,ChatGPT當然還有提升的空間。有時候,它已經接近了答案,但又很快偏離了。而且,無法輸入圖像可能也影響了它的答題正確率。”
總體(ti) 來說,ChatGPT沒有很好地通過牛津MAT,它的得分很低,正確率也不樂(le) 觀。但無論如何,這是一個(ge) 有趣的實驗,我們(men) 看到了人工智能解決(jue) 數學問題的潛力和發展空間。至少在現階段而言,具備真才實學的同學們(men) 依然能在MAT考場上戰勝人工智能!
評論已經被關(guan) 閉。