ChatGPT從(cong) 問世到現在的熱度一直隻增不降,從(cong) 最初的智能對話,到如今擁有強大的語言、圖形處理能力,它始終都是目前人工智能領域發展的風向標。
近日,斯坦福學者發現,GPT-4又開掛了!目前可以對於(yu) Nature、ICLR的論文給出的審稿意見,且和人類審稿人的意見有超過50%的相似性。
01新晉學術審稿人——GPT4
根據斯坦福學者的發現,GPT-4目前不僅(jin) 完美勝任了審稿的工作,甚至比人類做得還好!在GPT-4給出的意見中,有超過50%的內(nei) 容和至少一位人類審稿人一致,且超過82.4%的作者表示,GPT-4給出意見很有幫助。
論文作者James Zou總結道:我們(men) 仍然需要高質量的人工反饋,但LLM(開源大型語言模型)可以幫助作者在正式的同行評審之前,改進自己的論文初稿。
02LLM究竟如何審稿?
從(cong) 步驟上來看隻需要簡單的4步,GPT-4就可以對專(zhuan) 業(ye) 的學術論文做出意見反饋了。
首先,準備好論文PDF文件;其次,GPT-4會(hui) 根據你提供的文檔進行內(nei) 容的提取,並進行標題、摘要、圖形、表格等文本內(nei) 容的分析。
第三步,需要告訴GPT-4,要遵循業(ye) 內(nei) 頂尖的期刊會(hui) 議的審稿反饋形式,包括四個(ge) 部分:成果是否重要、是否新穎,論文被接受的理由,論文被拒的理由,改進建議。
最後,就可以等待GPT-4提供的審稿意見了(步驟如下圖所示):
從(cong) GPT-4給出的意見內(nei) 容上來看,它的意見和各頂會(hui) 的標準一樣,包含了4項內(nei) 容:研究的重要性和新穎性、可以被接受的潛在原因或被拒絕的理由以及改進建議。
03如何證明GPT-4與(yu) 人類審稿的水平差異?
為(wei) 了比較GPT-4 與(yu) 真實人類審稿的水平,研究團隊展開了定量實驗。研究者從(cong) Nature正刊和各大子刊挑選了3,096篇文章,從(cong) ICLR機器學習(xi) 會(hui) 議(包含去年和今年)挑選了1,709篇,共計4,805篇文章。
在GPT-4給出意見後,匹配管線會(hui) 通過分別提取出來的人類和GPT-4論點,再進行匹配,找到重疊的論點,以此來評判GPT-4意見的專(zhuan) 業(ye) 性。
下圖就是一個(ge) 具體(ti) 的兩(liang) 階段評論匹配管線,對於(yu) 每條配對評論,相似度評級都會(hui) 給出理由,研究者將相似度閾值設為(wei) 7,弱匹配的評論就會(hui) 被過濾掉:
匹配後的結論是:
01GPT-4與(yu) 人類的審稿意見顯著重疊
在Nature論文中,GPT-4有57.55%的意見與(yu) 至少一位人類評審員一致;在ICLR中,這個(ge) 數字則高達77.18%。
但不同論文等級水平也會(hui) 影響重疊率的高低,經過研究員分析,論文水平相對弱的,GPT-4與(yu) 人類審稿意見的重疊率更高。這一點也側(ce) 麵說明了,目前GPT-4的審稿能力還無法完全替代人類,且對於(yu) 複雜的、高階的論文評審能力還有待提高。
02在非通用反饋的表現上表現尚可
研究人員還測試了GPT-4是否會(hui) 提供“模版”式的審稿意見,結果是發現GPT-4在Nature和ICLR上的“成對重疊率”都下降到0.43%和3.91%。
03在重大和普遍性問題上和人類保持一致
在大量的人類審稿員意見中,一些普遍性強或重點的意見問題可以被LLM識別,它可以識別出多個(ge) 人類評審員一致認同的常見問題或缺陷。這也就表明,GPT-4在這些問題上基本可以與(yu) 人類評審員保持觀點一致。
04強調一些與(yu) 人類不同類的意見
在大量的人類審稿員意見中,一些普遍性強或重點的意見問題可以被LLM識別,它可以識別出多個(ge) 人類評審員一致認同的常見問題或缺陷。這也就表明,GPT-4在這些問題上基本可以與(yu) 人類評審員保持觀點一致。
最後,我們(men) 通過這次實驗驗證了GPT-4目前強大的LLM自然語言的應用能力,但也同時通過數據看到了它與(yu) 人類評審員的差距。就目前而言,GPT-4雖然不能完全取代人類評審員進行專(zhuan) 業(ye) 性強的論文評審工作,當時如果作為(wei) 輔助人類評審員進行評審核對、意見參考的工具是基本可以勝任的。
另外,不得不提到發表這篇論文的作者們(men) ,從(cong) 作者的名字上就可以看到有很多華人作者,尤其是文章的三位一作,都是來自斯坦福大學計算機學院的華人學生,他們(men) 分別是:
梁偉(wei) 欣(上圖中間),斯坦福博士生,也是斯坦福AI實驗室(SAIL)成員。他碩士畢業(ye) 於(yu) 斯坦福電氣工程專(zhuan) 業(ye) ,本科畢業(ye) 於(yu) 浙江大學計算機科學。
Yuhui Zhang(上圖右一),同博士生在讀,研究方向為(wei) 多模態AI係統。清華本科畢業(ye) ,斯坦福碩士畢業(ye) 。
曹瀚成(上圖左一),該校五年級博士在讀,輔修管理科學與(yu) 工程,同時加入了斯坦福大學NLP和HCI小組。此前畢業(ye) 於(yu) 清華大學電子工程係本科。
04人工智能/計算機科學大咖教授
說到計算機科學、人工智能,就不得不提到CIS的兩(liang) 位重磅級教授,他們(men) 是分別來自全美計算機Top1的卡內(nei) 基梅隆大學,以及全美工科Top1的麻省理工學院。
David Woodruff卡內(nei) 基梅隆大學終身教授
卡內(nei) 基梅隆大學計算機係終身教授
UCB Simons Institute 數據科學項目創建者及主席
IBM Almaden研究中心資深研究員
STOC 2013、PODS 2010 最佳學術研究論文獎得主
曾獲EATCS Presbuger
身為(wei) 80後的他,早已經是CMU的終身級教授了,自教授在CMU任職以來,他在學術界的影響力就隻增不減,根據Google Scholar的最新數據顯示,教授的文獻引用次數已經高達12,415次。
每年David Woodruff教授課題組的學員在錄取季的表現都尤為(wei) 出眾(zhong) ,在過往的學員中,有被:斯坦福、牛津、劍橋、康奈爾、芝加哥、UCB、CMU、UMich等世界頂尖名校錄取,其中,還有學員的論文成功發表在了SCI。
David Woodruff教授最新課題
下麵這位大咖擁有眾(zhong) 多頭銜,他不僅(jin) 是麻省理工學院計算機係終身教授、MIT生物智能研究生項目主任,還是哈佛-麻省聯合博德研究所八大實驗室主任之一,Manolis Kellis教授可以說的上是人工智能領域的創世泰鬥。
Manolis Kellis麻省理工學院終身教授
麻省理工學院計算機係終身教授
MIT計算生物研究生/博士項目主任
哈佛-麻省聯合博德研究所成員
MIT計算機科學與(yu) 人工智能實驗室的首席研究員
美國科學與(yu) 工程職業(ye) 總統獎獲得者
論文引用次數超過15W, i10指數306
發表論文700餘(yu) 篇,Nature/Science 主刊33篇
尤其是在跨計算機科學與(yu) 生物、分子生物和基因學交叉領域上的學術研究成果豐(feng) 碩,Manolis Kellis教授的論文引用次數高達132,590次,發表了論文700多餘(yu) 篇,h指數130。
Manolis Kellis教授最新課題
評論已經被關(guan) 閉。