賽題名稱:CommonLit - Evaluate Student Summaries
賽題類型:自然語言處理、回歸
賽題任務:評估 3-12 年級學生撰寫(xie) 的摘要
賽題鏈接?:https://www.kaggle.com/competitions/commonlit-evaluate-student-summaries/
比賽背景
摘要寫(xie) 作是學習(xi) 者的重要技能。摘要可以增強閱讀理解能力,特別是對於(yu) 第二語言學習(xi) 者和有學習(xi) 障礙的學生而言。摘要寫(xie) 作還促進批判性思維,是提高寫(xie) 作能力的最有效方法之一。然而,學生很少有足夠的機會(hui) 練習(xi) 這項技能,因為(wei) 評估和提供反饋對教師來說是一項耗時的工作。大型語言模型(LLMs)等創新技術可以改變這種狀況,因為(wei) 教師可以使用這些解決(jue) 方案快速評估摘要。
比賽任務
比賽的目標是評估3-12年級學生撰寫(xie) 摘要的質量。您將構建一個(ge) 模型,評估學生在摘要中表達主要觀點和細節的能力,以及摘要中使用的語言的清晰度、準確性和流暢性。您將可以訪問一係列真實學生摘要來訓練您的模型。
評估指標
Submissions are scored using MCRMSE, mean columnwise root mean squared error:
賽題時間軸
- 2023 年 10 月 4 日- 報名截止。
- 2023 年 10 月 4 日- 團隊合並截止。
- 2023 年 10 月 11 日- 最終提交截止。
賽題數據集
該數據集包含約 24,000 份由 3-12 年級學生撰寫(xie) 的關(guan) 於(yu) 各種主題和流派的段落摘要。這些摘要的內(nei) 容和措辭均已打分。比賽的目標是預測未見過的主題的摘要的內(nei) 容和措辭得分。
- summaries_train.csv訓練集中的摘要。
- student_id- 學生作家的 ID。
- prompt_id- 鏈接到提示文件的提示 ID。
- text- 學生總結的全文。
- content- 摘要的內容分數。第一個目標。
- wording- 摘要的措辭得分。第二個目標。
- summaries_test.csv測試集中的摘要。
- prompts_train.csv,四個訓練集提示。每個提示都包含給學生的完整總結作業。
- prompt_id- 鏈接到摘要文件的提示 ID。
- prompt_question- 要求學生回答的具體問題。
- prompt_title- 提示的簡寫標題。
- prompt_text- 完整的提示文本。
- prompts_test.csv - 測試集提示。包含與上麵相同的字段。這裏的提示隻是一個示例。完整的測試集有大量的提示。
- Sample_submission.csv - 格式正確的提交文件。
賽題思路
BERT是一種預訓練的深度雙向轉換器模型,適用於(yu) 自然語言處理任務。對於(yu) 本次比賽中的摘要評估任務,可以使用BERT模型結合交叉驗證來完成。
https://www.kaggle.com/code/mohammad2012191/debertav3-pytorch-baseline-inference-cv-0-467
https://www.kaggle.com/code/pjmathematician/commonlit-similarity-vs-scores-simple-inference
評論已經被關(guan) 閉。