- 賽題名稱:Kaggle - LLM Science Exam
- 賽題類型:自然語言處理、大模型
- 賽題任務:使用LLM回答困難的問題
- 賽題鏈接?:
https://www.kaggle.com/competitions/kaggle-llm-science-exam
比賽背景
隨著大型語言模型能力範圍的擴大,越來越多的研究領域正在使用LLM來表征自己。由於(yu) 許多現有的 NLP 基準已被證明對於(yu) 最先進的模型來說是微不足道的,因此也有一些有趣的工作表明LLM 可用於(yu) 創建更具挑戰性的任務來測試更強大的模型。
與(yu) 此同時,量化和知識蒸餾等方法被用來有效地縮小語言模型並在更普通的硬件上運行它們(men) 。Kaggle 環境提供了一個(ge) 獨特的視角來研究這一問題,因為(wei) 提交內(nei) 容受到 GPU 和時間限製。
此挑戰的數據集是通過提供從(cong) 維基百科提取的一係列科學主題的 gpt3.5 文本片段,並要求其編寫(xie) 多項選擇題(帶有已知答案),然後過濾掉簡單的問題來生成的。
比賽任務
目前,我們(men) 估計 Kaggle 上運行的最大模型約有 100 億(yi) 個(ge) 參數,而 gpt3.5 的參數為(wei) 1750 億(yi) 個(ge) 。如果一個(ge) 問答模型能夠在由比其規模大 10 倍的問題編寫(xie) 模型編寫(xie) 的測試中表現出色,這將是一個(ge) 真正有趣的結果; 另一方麵,如果一個(ge) 較大的模型能夠有效地擊敗較小的模型,這對LLM自我基準測試和測試的能力具有引人注目的影響。
受OpenBookQA 數據集的啟發,本次競賽要求參與(yu) 者回答使用大型語言模型回答基於(yu) 科學的困難問題。您的工作將幫助研究人員更好地了解大型語言模型自我測試的能力,以及大型語言模型可以在資源有限的環境中運行的潛力。
評估指標
提交根據平均精度@3 (MAP@3) 評估:
一旦為(wei) 測試集中的單個(ge) 問題評分了正確的標簽,該標簽就不再被認為(wei) 與(yu) 該問題相關(guan) ,並且在計算中會(hui) 跳過該標簽的其他預測。例如,如果A觀察的標簽正確,則以下預測的平均精度均為(wei) 1.0。
[A, B, C, D, E] [A, A, A, A, A] [A, B, A, C, A]
賽題時間軸
- 2023 年 10 月 3 日- 報名截止。
- 2023 年 10 月 3 日- 團隊合並截止。
- 2023 年 10 月 10 日- 最終提交截止。
賽題數據集
您在本次比賽中的挑戰是使用LLMs回答多項選擇題。雖然用於(yu) 生成這些問題的過程的細節並未公開,但我們(men) 提供了 200 個(ge) 示例問題及其答案,以顯示格式,並給出測試集中問題類型的一般概念。
然而,樣本問題和測試集之間可能存在分布變化,因此泛化到廣泛問題集的解決(jue) 方案可能會(hui) 表現更好。每個(ge) 問題由一個(ge) prompt(問題)和選項A以及B標記C的D正確E答案組成answer(這包含最正確答案的標簽,由生成的 LLM 定義(yi) )。
本次比賽采用隱藏測試方式。對您提交的筆記本進行評分後,實際測試數據(包括提交的樣本)將可供您的筆記本使用。測試集與(yu) 提供的test.csv具有相同的格式,但有大約 4000 個(ge) 問題,這些問題的主題可能有所不同。
文本說明
- train.csv - 一組 200 個問題以及答案欄
- test.csv - 測試集;你的任務是根據提示預測前三個最可能的答案。注意:您在這裏看到的測試數據隻是訓練數據的副本,沒有答案。看不見的重新運行測試集由約 4,000 個不同的提示組成。
- Sample_submission.csv - 正確格式的示例提交文件
列說明
- prompt- 所提出問題的文字
- A- 選項A;如果這個選項是正確的,那麽answer將會是A
- B- 選項 B;如果這個選項是正確的,那麽answer將會是B
- C- 選項C;如果這個選項是正確的,那麽answer將會是C
- D——選項D;如果這個選項是正確的,那麽answer將會是D
- E——選項E;如果這個選項是正確的,那麽answer將會是E
- answer- 最正確的答案,由生成的 LLM 定義(A、B、C、D或之一E)
賽題思路
思路1:使用BERT完成多項選擇,使用比賽數據集進行微調
使用BERT模型來完成多項選擇的任務。BERT可以用於(yu) 各種自然語言處理任務,包括多項選擇題的回答。
思路2:使用現有的公開大模型進行微調,通過模型蒸餾和量化得到提交
選擇使用現有的公開大模型,如GPT-3或其他類似的模型,作為(wei) 基礎模型進行微調。這些模型通常具有較大的參數量和更強大的語言理解能力。
賽題關(guan) 鍵點
在這個(ge) 比賽中,確實考慮到問題的性質和大型語言模型,最重要的是找到最適合的開源大型語言模型,並獲取額外的數據。但由於(yu) 訓練集隻有200個(ge) 樣例,這可能是一個(ge) 挑戰。
因此賽題可以考慮使用小模型,但使用外部方式來生成更多的高質量數據,這樣也可以增加模型的精度。
賽題開源
https://www.kaggle.com/code/tanreinama/t5-loss-scoring-for-llm-science-exam
https://www.kaggle.com/code/zifencai/deberta-v3-large-inference
https://www.kaggle.com/code/takamichitoda/llm-perplexity-ranking-ensemble
評論已經被關(guan) 閉。