Kaggle賽題解析:CommonLit摘要評估

賽題名稱:CommonLit - Evaluate Student Summaries

賽題類型:自然語言處理、回歸

賽題任務:評估 3-12 年級學生撰寫(xie) 的摘要

賽題鏈接?:https://www.kaggle.com/competitions/commonlit-evaluate-student-summaries/

比賽背景

摘要寫(xie) 作是學習(xi) 者的重要技能。摘要可以增強閱讀理解能力,特別是對於(yu) 第二語言學習(xi) 者和有學習(xi) 障礙的學生而言。摘要寫(xie) 作還促進批判性思維,是提高寫(xie) 作能力的最有效方法之一。然而,學生很少有足夠的機會(hui) 練習(xi) 這項技能,因為(wei) 評估和提供反饋對教師來說是一項耗時的工作。大型語言模型(LLMs)等創新技術可以改變這種狀況,因為(wei) 教師可以使用這些解決(jue) 方案快速評估摘要。

Kaggle賽題解析:CommonLit摘要評估

比賽任務

比賽的目標是評估3-12年級學生撰寫(xie) 摘要的質量。您將構建一個(ge) 模型,評估學生在摘要中表達主要觀點和細節的能力,以及摘要中使用的語言的清晰度、準確性和流暢性。您將可以訪問一係列真實學生摘要來訓練您的模型。

評估指標

Submissions are scored using MCRMSE, mean columnwise root mean squared error:

賽題時間軸

  • 2023 年 10 月 4 日- 報名截止。
  • 2023 年 10 月 4 日- 團隊合並截止。
  • 2023 年 10 月 11 日- 最終提交截止。

賽題數據集

該數據集包含約 24,000 份由 3-12 年級學生撰寫(xie) 的關(guan) 於(yu) 各種主題和流派的段落摘要。這些摘要的內(nei) 容措辭均已打分。比賽的目標是預測未見過的主題的摘要的內(nei) 容和措辭得分。

  • summaries_train.csv訓練集中的摘要。
    • student_id- 學生作家的 ID。
    • prompt_id- 鏈接到提示文件的提示 ID。
    • text- 學生總結的全文。
    • content- 摘要的內容分數。第一個目標。
    • wording- 摘要的措辭得分。第二個目標。
  • summaries_test.csv測試集中的摘要。
  • prompts_train.csv,四個訓練集提示。每個提示都包含給學生的完整總結作業。
    • prompt_id- 鏈接到摘要文件的提示 ID。
    • prompt_question- 要求學生回答的具體問題。
    • prompt_title- 提示的簡寫標題。
    • prompt_text- 完整的提示文本。
  • prompts_test.csv - 測試集提示。包含與上麵相同的字段。這裏的提示隻是一個示例。完整的測試集有大量的提示。
  • Sample_submission.csv - 格式正確的提交文件。

賽題思路

BERT是一種預訓練的深度雙向轉換器模型,適用於(yu) 自然語言處理任務。對於(yu) 本次比賽中的摘要評估任務,可以使用BERT模型結合交叉驗證來完成。

https://www.kaggle.com/code/mohammad2012191/debertav3-pytorch-baseline-inference-cv-0-467

https://www.kaggle.com/code/pjmathematician/commonlit-similarity-vs-scores-simple-inference

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

英國私校入學考試CAT4怎麽備考?有哪些題目類型?分數怎麽看?

下一篇

CAIE分數到底分為多少等級?分數計算方法公布

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部