Kaggle賽題解析：CommonLit摘要評估

文章目錄[隱藏]

比賽背景
比賽任務
評估指標
賽題時間軸
賽題數據集
賽題思路

賽題名稱：CommonLit - Evaluate Student Summaries

賽題類型：自然語言處理、回歸

賽題任務：評估 3-12 年級學生撰寫(xie) 的摘要

賽題鏈接?：https://www.kaggle.com/competitions/commonlit-evaluate-student-summaries/

比賽背景

摘要寫(xie) 作是學習(xi) 者的重要技能。摘要可以增強閱讀理解能力，特別是對於(yu) 第二語言學習(xi) 者和有學習(xi) 障礙的學生而言。摘要寫(xie) 作還促進批判性思維，是提高寫(xie) 作能力的最有效方法之一。然而，學生很少有足夠的機會(hui) 練習(xi) 這項技能，因為(wei) 評估和提供反饋對教師來說是一項耗時的工作。大型語言模型（LLMs）等創新技術可以改變這種狀況，因為(wei) 教師可以使用這些解決(jue) 方案快速評估摘要。

Kaggle賽題解析：CommonLit摘要評估

比賽任務

比賽的目標是評估3-12年級學生撰寫(xie) 摘要的質量。您將構建一個(ge) 模型，評估學生在摘要中表達主要觀點和細節的能力，以及摘要中使用的語言的清晰度、準確性和流暢性。您將可以訪問一係列真實學生摘要來訓練您的模型。

評估指標

Submissions are scored using MCRMSE, mean columnwise root mean squared error:

賽題時間軸

2023 年 10 月 4 日- 報名截止。
2023 年 10 月 4 日- 團隊合並截止。
2023 年 10 月 11 日- 最終提交截止。

賽題數據集

該數據集包含約 24,000 份由 3-12 年級學生撰寫(xie) 的關(guan) 於(yu) 各種主題和流派的段落摘要。這些摘要的內(nei) 容和措辭均已打分。比賽的目標是預測未見過的主題的摘要的內(nei) 容和措辭得分。

summaries_train.csv訓練集中的摘要。
- student_id- 學生作家的 ID。
- prompt_id- 鏈接到提示文件的提示 ID。
- text- 學生總結的全文。
- content- 摘要的內容分數。第一個目標。
- wording- 摘要的措辭得分。第二個目標。
summaries_test.csv測試集中的摘要。
prompts_train.csv，四個訓練集提示。每個提示都包含給學生的完整總結作業。
- prompt_id- 鏈接到摘要文件的提示 ID。
- prompt_question- 要求學生回答的具體問題。
- prompt_title- 提示的簡寫標題。
- prompt_text- 完整的提示文本。
prompts_test.csv - 測試集提示。包含與上麵相同的字段。這裏的提示隻是一個示例。完整的測試集有大量的提示。
Sample_submission.csv - 格式正確的提交文件。