近期ChatGPT在AI自然語言處理領域可謂是大顯身手,以至於(yu) 不少人起了歪心思開始使用AI工具 “代寫(xie) ” 文章。為(wei) 了檢測出這些AI生成的文章,2023年4月23日新科學家網站發表了一篇文章叫做 “AI檢測工具對非英語母語人士書(shu) 寫(xie) 文章的偏見”。
研究人員從(cong) 中國教育論壇上獲取了91篇中國人寫(xie) 的托福作文,同時利用AI 語言檢測工具對比了88篇美國八年級學生的作文。研究人員總共使用了七個(ge) AI生成檢測工具,結果大大出人意料。
中國學生寫(xie) 的托福文章,誤判率從(cong) 最低48%到最高76%,而美國八年級學生的作文,誤判率從(cong) 0%到12%。研究者隨後把中國學生的文章做了潤色後(提高複雜度),然後AI檢測器的結果就幾乎反了過來。
從(cong) 這個(ge) 結果我們(men) 可以看出,現有的AI檢測器很容易被原作者的語言水平影響,而且其本身的測量標準,比如複雜度,也缺乏廣泛的適用性和可靠性。
既然AI基於(yu) “複雜度” 這個(ge) 單一概念有很高的誤判,那麽(me) 如何不依賴單一概念、多角度做判斷呢?BEEC團隊參與(yu) 的一個(ge) 最新研究,正好為(wei) 如何區分英語母語和非母語文章提供了很好的實證結論。
BEEC的CEO周明教授,加州北州大學的孫揚教授,和加州州立大學的田少楠教授在疫情期間開始了一個(ge) 研究項目。他們(men) 研究的問題是,如何區分網絡購物平台上由英語母語和非母語人士書(shu) 寫(xie) 的產(chan) 品介紹。
這個(ge) 項目的靈感來自於(yu) 矽穀一個(ge) 谘詢公司的疑問,母語和非母語人士寫(xie) 的產(chan) 品或市場推廣材料到底哪裏不一樣?如果能知道這兩(liang) 者的區別,那麽(me) 就可以幫助非母語人士改進他們(men) 的推廣資料。
經過研究團隊和那家矽穀的谘詢公司的共同商討,和對數據的嚴(yan) 格分析篩選,研究團隊從(cong) 美國亞(ya) 馬遜的網站上收集了大量的產(chan) 品介紹。所有產(chan) 品品類的挑選都要求市場中既有中國賣家也有美國賣家,這樣才能得到非母語和母語寫(xie) 作的多樣性。
研究團隊招募了美國本土消費者,經過一年多的時間,對所有的產(chan) 品介紹進行了分類,從(cong) 母語水平到非母語水平,當然還有一些中間水平。這個(ge) 分類以消費者讀完產(chan) 品介紹後的印象為(wei) 基礎,盡量貼近實際消費者決(jue) 策的過程。
然後,研究團隊將所有產(chan) 品描述都使用標準的文字挖掘的大數據方法進行量化,每篇產(chan) 品介紹都細分為(wei) 106個(ge) 語言學參數指標。經過分析發現,非母語人士寫(xie) 的產(chan) 品介紹,和母語人士比起來,有很明顯的區別。特別是分辨英語非母語人士產(chan) 品介紹的指標,準確率達到了90%以上。
英語非母語人士寫(xie) 的產(chan) 品介紹,經常包含了以下這些特點:
第一,這些產(chan) 品介紹一般篇幅比較長,句子較長,而且句子長度變化更多;
第二,句式結構相對母語人士更加簡單;
第三,同一個(ge) 動詞、名詞、介詞重複的頻率更高。甚至同一個(ge) 詞根的衍生詞 (比如price衍生出pricy和priced這兩(liang) 個(ge) 詞),使用得也比母語人士寫(xie) 的產(chan) 品介紹裏多;
第四,同一語義(yi) 的信息或概念重複出現的頻率更高。比如前一句說過了ChatGPT這個(ge) 事情,後麵又重複性講述,就是語義(yi) 或概念的重複;
第五,某些詞語在文字中隻出現一次的概率更高。比如enchanting這個(ge) 詞,在整個(ge) 產(chan) 品介紹裏隻出現一次;
第六,語言學量化指標比例。一個(ge) 是causal particle對causal verb比例。比如because, so 和therefore,就是causal particle。動詞如make, cause, allow, 和help等,就是causal verb。這個(ge) 比例越大,那麽(me) 就越有可能是非母語人士寫(xie) 的產(chan) 品介紹。另一個(ge) 指標是minimum editorial distance,指的是將一個(ge) 詞語通過改變字母順序或增加其他字母而變成另一個(ge) 詞語所需的最少步驟。比如把price變成pricy,就隻需要一步。
第七,動詞不定式(infinitives)出現的密度,比如to do。不定式的密度越高,則更有可能是非母語人士寫(xie) 的產(chan) 品介紹;
第八,詞匯相對簡單和具體(ti) ,比如dog(狗)就相對canine(犬類)顯得簡單具體(ti) ;
那英語母語人士寫(xie) 的產(chan) 品介紹有什麽(me) 特點呢?研究團隊發現了三個(ge) 特點:
第一,母語人士寫(xie) 的產(chan) 品介紹,對英語文化的熟悉度更高;
第二,這些產(chan) 品介紹相對使用更多母語人士口語中常用詞匯;
第三,英語裏麵有各個(ge) 年級所學習(xi) 的詞匯的分類,母語人士寫(xie) 的產(chan) 品介紹中,使用高年級詞匯更多;
相對文章開頭引用的新科學家網站的報導,BEEC參與(yu) 的這個(ge) 研究則提供了另一個(ge) 角度和更細化更具體(ti) 的指標,去分析和定義(yi) 母語和非母語商業(ye) 英語寫(xie) 作的區別。BEEC也很高興(xing) 在AI領域能夠拋磚引玉,之後會(hui) 有更多的研究者會(hui) 從(cong) 不同的角度為(wei) AI的未來添磚加瓦,讓AI更好地為(wei) 我們(men) 服務。
評論已經被關(guan) 閉。