人工智能的發展正在不斷突破人類的想象!!!
第65屆國際奧林匹克數學賽(IMO)剛剛在英國巴斯落下帷幕,但事情還遠遠沒有結束。
2024IMO美國隊奪冠
在這一次 “全世界最聰明的人類”的集會(hui) 背後,還有一股神秘力量的參與(yu) ——人工智能!
7月16-17日,來自世界各地的人類選手們(men) 正在現場渾然未覺的投入比賽解題中,而在120英裏以外英國倫(lun) 敦的實驗室裏,穀歌DeepMind團隊的科學家們(men) 正貓在一起,靜靜等待著實驗室新開發的人工智能的對於(yu) IMO問題給出的解答。
在幾個(ge) 小時後,這兩(liang) 個(ge) 最新的超級數學模型, AlphaProof 和 AlphaGeometry 2,也展現了令研究人員喜笑顏開,令旁觀者瞠目結舌的炸裂表現——它們(men) 成功解出了4道IMO的超高難度題目!
讓我們(men) 先來看比賽成績。
IMO共6道題目,每道題目滿分7分。
今年IMO金牌的分數線是29分。銀牌的分數線是22分。
而AlphaProof 和 AlphaGeometry 2解出的四道題目獲得28分。
達到了銀牌中的高階銀牌(High Silver)水平!已經無限逼近金牌!!!
人工智能的比賽成績接近IMO金牌選手
圖源:穀歌DeepMind AlphaProof 和AlphaGeometry 項目組
於(yu) 2024年7月25日發表的
《AI achieves silver-medal standard solving International Mathematical Olympiad problems》
(《人工智能在解決(jue) 國際數學奧林匹克問題上達到銀牌標準》)一文
01、AlphaProof
AlphaProof 是一個(ge) 通過 Lean 語言來證明數學命題的模型。(*Lean 是一種用於(yu) 形式化數學和計算機科學的證明輔助和編程語言。它由 Microsoft Research 開發,旨在幫助用戶構建和驗證數學證明)。
AlphaProof結合了預訓練語言模型(pre-trained language model)和AlphaZero強化學習(xi) 算法(reinforcement learning algorithm),後者就是那個(ge) 大家熟知的,那個(ge) 征服了國際象棋的模型(AlphaGo超進化版)。
利用形式化數學語言來進行數學證明的優(you) 勢在於(yu) ,盡管相比自然語言可以訪問的數據量級更少,但是卻可以確保數學證明的每一步推理都是正確的,並且可以被計算機程序驗證。(形式化數學是使用精確的符號和嚴(yan) 格的邏輯規則來定義(yi) 和證明數學概念、定理和推理過程的方法。)
穀歌DeepMind研究人員為(wei) 了彌合程序語言和自然語言在數據量級之間的鴻溝,通過微調 Gemini 模型,成功地將自然語言問題轉換為(wei) 形式化問題,創建了一個(ge) 包含各種難度問題的大型問題庫。
在實際應用中,AlphaProof 能夠生成候選解決(jue) 方案,並通過不斷搜索庫中的證明步驟來驗證或駁斥這些候選答案。每當一個(ge) 證明被證實,都會(hui) 進一步強化 AlphaProof 模型,提高其解決(jue) 更具挑戰性問題的能力。
在今年IMO比賽前的幾周內(nei) ,穀歌的科學家們(men) 通過數百萬(wan) 道題目的證明和反證來訓練 AlphaProof,使其在競賽中表現優(you) 異。
02、AlphaGeometry
AlphaGeometry 2 僅(jin) 用19秒,就解出了今年IMO第四題,它是穀歌幾何求解係統的顯著升級版,毫無疑問,它比AlphaGeometry 1速度更快,解決(jue) 問題的效率更高。
它基於(yu) Gemini 語言模型,使用了比前版本多一個(ge) 數量級的合成數據進行訓練。這使得AlphaGeometry 2 能夠解決(jue) 更加複雜的幾何問題,包括涉及物體(ti) 運動、角度、比例和距離方程的問題。
新的符號引擎使 AlphaGeometry 2 的速度比前版本快兩(liang) 個(ge) 數量級。在麵對新問題時,它采用了一種全新的知識共享機製,使不同搜索樹的高級組合能夠應對更複雜的挑戰。
在今年的比賽之前,AlphaGeometry 2 已經能夠解決(jue) 過去25年間IMO所有幾何問題中的83%,而其上一代模型的解決(jue) 率為(wei) 53%。在2024年IMO競賽中,AlphaGeometry 2 在接收到問題形式化表述後的19秒內(nei) 解決(jue) 了第4題,更加展示了其強大的問題解決(jue) 能力。
03、AI迎戰國際數學奧林匹克的挑戰
如果說在今年1月,人們(men) 已經對《紐約時報》所報道的能解出IMO幾何題的AlphaGeometry感到驚異,那麽(me) 這次聯手解出四道IMO題目的AlphaProof和AlphaGeometry 2 模型則足以帶來顛覆人類認知的震撼。兩(liang) 大模型可謂是目前AI屆橫空出世的,最不可思議的存在。
在《紐約時報》發表文章介紹AlphaGeometry時,曾有人質疑道:“幾何是最具結構化的奧數學科,AI能解出來不足為(wei) 奇。”
《紐約時報》1月發表文章介紹AlphaGeometry
理論上來說,幾何類題目涵蓋的定理內(nei) 容確實相對有限,讓AI足以通過題庫搜索調用定理來解題。
但是如今,AI成功解出的另外3道IMO非幾何類題目,真正證明了其勢不可擋的實力。
與(yu) 幾何問題不同,這三道題目並沒有證明空間可以供AI進行簡單搜索。舉(ju) 例來說,假設由你來為(wei) IMO試卷打分,即使解題步驟是用你不懂的語言書(shu) 寫(xie) 的,你仍可以通過各種代表不同幾何概念的符號等信息來理解選手寫(xie) 的幾何證明。但當你看其他類型的數學問題的答卷時,你所需要評判的內(nei) 容則遠比辨別字母符號更多。
04、AI甚至超越前美國奧數隊總教練羅博深,他怎麽(me) 說?
前美國奧數隊總教練羅博深教授曾在1999年代表美國隊參加IMO,曾獲得“低階銀牌”(Low Silver)成績。
羅博深高中時期奪得IMO銀牌,Radu Gologan為(wei) 他頒獎
用他的話來說:“現在,AI 達到了IMO高階銀牌水平,這已經超越了我當年的成績。在親(qin) 自嚐試解答這些題目後,我必須承認解出其中一些題目花了我好幾個(ge) 小時。一些非幾何題目非常難,幾乎讓人無從(cong) 下手。當我閱讀IMO競賽題目時,我對一些奧數領域的同事說,這次考試對 AI 來說會(hui) 很難,因為(wei) 隻有一道幾何題,其他題目非常打破常規。然而,讓我出乎意料的是,AI竟然做到了。這是非常偉(wei) 大的進步。”
羅教授說,“有些人可能會(hui) 抱怨 ‘比賽不公’,因為(wei) AI 有超過 9 小時的時間來解決(jue) 這些問題,並在計算過程中使用了大量資源。然而,從(cong) 計算機工程的曆史來看,解題耗時長的情況,遲早都會(hui) 得到解決(jue) 。
很巧,我昨天剛在布萊切利莊園主持了 IMO 校友聚會(hui) ,我們(men) 參觀了看到二戰期間使用的計算機,它們(men) 非常龐大,一台計算機的大小相當於(yu) 一整個(ge) 房間,而且耗能巨大,還幾乎沒有什麽(me) 計算能力。然而僅(jin) 僅(jin) 過去了數十年,智能手機已經能夠讓我們(men) 在股掌之間,數秒之內(nei) ,輕輕鬆鬆獲取自己需要的信息。”
05、AI征服IMO,教育行業(ye) 將發生哪些變革?
IMO是全球最負盛名的數學競賽,自1959年起每年舉(ju) 辦,吸引了全世界頂尖的年輕數學家。參賽者們(men) 需要經過數千小時的訓練,解決(jue) 代數、組合學、幾何學和數論領域的極其困難的六道題目。
許多菲爾茲(zi) 獎得主都曾在年輕時參加過IMO,這一競賽也成為(wei) 衡量AI係統高級數學推理能力的理想化基準。
由於(yu) 數學競賽天生具備的選拔性,許多人也因此不自覺的加入了“內(nei) 卷”之中。
從(cong) 追求AMC 8滿分,變成追求4年級就拿到AMC 8滿分;從(cong) 努力quilify for AIME,變成追求入選AIME很多次。也因此,很多教培機構應運而生,通過給學生灌輸解題技巧來幫助學生迅速獲取“一次性”的高分。
然而,數學競賽真正的意義(yi) 到底是什麽(me) ?在羅教授看來,如果你僅(jin) 僅(jin) 追求的一個(ge) 階段性的“解”,無論是在某個(ge) 競賽取得高分,或是進入頂尖私立高中,或者是爬藤,都可能會(hui) 讓你忽視這一切真正的價(jia) 值和樂(le) 趣。
數學的最本質的意義(yi) 是思考和邏輯,參與(yu) 競賽,一方麵是讓每個(ge) 孩子能接觸更複雜,更有趣,更挑戰思維能力的數學題目,另一方麵,則是培養(yang) 孩子思考和解決(jue) 問題的勇氣,麵對新的問題勇於(yu) 嚐試而非膽怯止步,並從(cong) 中得到真正的成就感和滿足感,這樣的能力才是真正長遠有益於(yu) 學生的。
在羅教授看來,學生應該通過思考和嚐試,探索問題的解決(jue) 方法,而不是通過重複性訓練套用已有的答題技巧。如果一個(ge) 孩子參與(yu) 數學競賽隻是為(wei) 了熟悉題目和技巧,以便在比賽中打敗其他人,從(cong) 而獲得更高的排名以證明自己的能力,那這就隻是無意義(yi) 的內(nei) 卷。
這一次AlphaProof和AlphaGeometry 2的出現,也讓一直深耕數學教育行業(ye) 的羅教授開始思考,奧數考試係統化培訓是否還有其價(jia) 值。
在能夠解決(jue) IMO級別問題的AI出現之後,通過訓練達到的同樣能力的人,是否還會(hui) 一樣會(hui) 在未來受到大企業(ye) 的青睞?如果計算機能夠比人更快地解決(jue) 題目,我們(men) 的優(you) 勢何在?未來的科學研究結構將發生怎樣的巨大變化?
羅教授認為(wei) ,極強的學術技能將不再是一人獨有的硬核技術。而擁有能夠認識未來世界的全局的洞察力和應變力將變得至關(guan) 重要。學會(hui) 發現問題提出問題,學會(hui) 整合和利用資源,理解那些在完成目標的過程中遇到的一個(ge) 個(ge) 小問題,才是一個(ge) 人能夠有策略地解決(jue) 任何難題的關(guan) 鍵。
按照目前的發展趨勢,人類無法在速度和準確性上擊敗計算機,但更加迫在眉睫的是,我們(men) 需要找到屬於(yu) 自己的那條,旁人和人工智都能未曾踏入的河流。
06、孩子的未來將何去何從(cong) ?
羅教授說:“隨著人工智能變得越來越強大,大規模提升人類智能變得越來越重要。許多人可能一開始還沒有意識到這一點,但正在真實發生的是,人工智能已經很大程度上影響了人們(men) 的就業(ye) 選擇。
過去,一個(ge) IMO金牌選手這樣能力卓群的人的存在,可能並不會(hui) 真正影響大多數人就業(ye) 狀況——因為(wei) 我們(men) 都知道,這樣的人已經是金字塔頂端的鳳毛麟角。然而,一旦任何AI在某項工作上達到了比人類更高的能力,它便可以大規模複製並占據所有相關(guan) 工作崗位。
現在,AI已經能夠解決(jue) IMO問題,這意味著它們(men) 已經學會(hui) 了解決(jue) 沒有見過的新問題,這幾乎是人類最有價(jia) 值的技能之一,因此,現有的教育方法需要快速改變。不管人們(men) 是否願意承認,我們(men) 的教育結構目前深受標準化考試影響,學生仍然在“被迫”追求解題的熟練程度。但現在,每個(ge) 人都需要學習(xi) 如何解決(jue) 他們(men) 以前從(cong) 未見過的問題,以跟上AI的發展。
此外,技術越強大,我們(men) 就越需要努力保護人類文明和人性的光輝。我們(men) 需要建立一個(ge) 人們(men) 願意共同友好合作,相互支持的,讓人類感到安全和進步的社群,而不是成為(wei) 一個(ge) 個(ge) 為(wei) 了競爭(zheng) 在內(nei) 卷中彼此爭(zheng) 鬥打壓的個(ge) 體(ti) 。分裂則衰。對我來說,這與(yu) 建立人類智能密切相關(guan) ,如果我們(men) 培養(yang) 一個(ge) 尋求打敗他人的“人才”而不是幫助他人的人才可能是有害的。”
評論已經被關(guan) 閉。