學習(xi) 機構實驗室 PII數據檢測競賽解析
競賽題目:
學習(xi) 機構實驗室 - PII數據檢測競賽解析
The Learning Agency Lab - PII Data Detection
開發自動化技術,檢測並移除教育數據中的個(ge) 人身份信息(PII)
競賽類型:
自然語言處理、文本分類
賽題鏈接:
https://www.kaggle.com/competitions/pii-detection-removal-from-educational-data/overview
EDU&AI
賽題任務
該競賽的目標是開發一個(ge) 模型,能夠在學生寫(xie) 作中檢測到個(ge) 人身份信息(PII)。您努力實現對教育數據中PII的自動檢測和刪除將降低發布教育數據的成本。這將支持學習(xi) 科學研究和教育工具的開發。
可靠的自動化技術可以讓研究人員和行業(ye) 充分利用大型公共教育數據提供的潛力,以支持開發有效的工具和幹預措施,以支持教師和學生。
EDU&AI
賽題背景
在當今充斥著來自教育技術、在線學習(xi) 和研究等來源的豐(feng) 富教育數據的時代,廣泛存在的PII是一個(ge) 關(guan) 鍵挑戰。PII的存在阻礙了分析和創建能夠推動教育的開放數據集,因為(wei) 公開發布數據會(hui) 使學生麵臨(lin) 風險。為(wei) 了降低這些風險,關(guan) 鍵的是在公開發布之前對教育數據進行PII的篩查和清理,而這是數據科學可以簡化的。
目前手動審查整個(ge) 數據集以尋找PII是目前最可靠的篩查方法,但這導致了巨大的成本,並限製了教育數據集的可伸縮性。雖然依賴命名實體(ti) 識別(NER)的自動PII檢測技術存在,但這些技術最適用於(yu) 具有共同格式(如電子郵件和電話號碼)的PII。PII檢測係統難以正確標記名稱並區分那些敏感的名稱(例如學生的姓名)和那些不敏感的名稱(例如被引用的作者)。
EDU&AI
競賽主辦方
競賽主辦方範德堡大學是田納西州納什維爾市的一所私立研究型大學。它提供70個(ge) 本科專(zhuan) 業(ye) 和跨足10個(ge) 學院的全方位研究生和專(zhuan) 業(ye) 學位,全部位於(yu) 一個(ge) 擁有先進實驗室的美麗(li) 校園。範德堡致力於(yu) 激發和培養(yang) 跨學科研究,促進開創性的發現。
在這次競賽中,範德堡大學與(yu) The Learning Agency Lab合作,後者是一家總部位於(yu) 亞(ya) 利桑那州的獨立非營利組織,專(zhuan) 注於(yu) 為(wei) 社會(hui) 福祉開發基於(yu) 學習(xi) 科學的工具和項目。
您在創建可靠的自動化技術以檢測PII方麵的工作將帶來更多高質量的公共教育數據。研究人員隨後可以利用此前不可用的數據的潛力,開發有益於(yu) 教師和學生的有效工具和幹預措施。
EDU&AI
數據集描述
競賽數據集包含約22,000篇由參與(yu) 大規模開放在線課程的學生撰寫(xie) 的論文。所有論文都是以單一作業(ye) 提示的形式撰寫(xie) 的,該提示要求學生將課程材料應用於(yu) 一個(ge) 實際世界的問題。競賽的目標是注釋在這些論文中找到的個(ge) 人身份信息(PII)。
為(wei) 了保護學生隱私,數據集中的原始PII已經被相同類型的替代標識符替換,使用了部分自動化的過程。大多數論文都保留給測試集(70%),因此鼓勵競爭(zheng) 者使用公開可用的外部數據集來增強訓練數據。
PII類型
競賽要求競爭(zheng) 者為(wei) 以下七種類型的PII分配標簽:
- NAME_STUDENT - 學生的全名或部分名字,不一定是論文的作者。不包括教師、作者和其他人名。
- EMAIL - 學生的電子郵件地址。
- USERNAME - 學生在任何平台上的用戶名。
- ID_NUM - 可用於識別學生的數字或字符序列,如學生ID或社會保障號碼。
- phones_NUM - 與學生相關聯的電話號碼。
- URL_PERSONAL - 可用於識別學生的URL。
- STREET_ADDRESS - 與學生相關聯的全名或部分街道地址,如家庭地址。
文件和字段信息
數據以JSON格式呈現,其中包括文檔標識符、論文的全文、標記列表、有關(guan) 空格的信息和標記注釋。文檔使用SpaCy英文分詞器進行標記化。
標記以BIO(Beginning,Inner,Outer)格式呈現。當實體(ti) 的開始時,PII類型前綴為(wei) “B-”。如果標記是實體(ti) 的延續,則前綴為(wei) “I-”。不是PII的標記為(wei) “O”。
{test|train}.json - 測試和訓練數據;此頁麵上提供的測試數據僅(jin) 供說明目的,並將在代碼重新運行期間用隱藏的測試集替換。
- (int):論文的索引
- 文檔(int):論文的整數ID
- full_text(string):論文的UTF-8表示
- 標記(列表)
- (string):每個標記的字符串表示
- trailing_whitespace(列表)
- (bool):一個布爾值,指示每個標記後麵是否有空格。
- 標簽(列表)[僅適用於訓練數據]
- (string):BIO格式中的標記標簽
sample_submission.csv - 正確提交格式的示例。有關(guan) 詳細信息,請參閱概述頁麵的提交文件部分。
EDU&AI
競賽時間線
2024年1月17日 - 起始日期。
2024年4月16日 - 參賽截止日期。
2024年4月16日 - 團隊合並截止日期。
2024年4月23日 - 最終提交截止日期。
EDU&AI
競賽獎金
排行榜獎品
第一名 - $13,000
第二名 - $10,000
第三名 - $5,000
效率獎品
第一名 - $15,000
第二名 - $12,000
第三名 - $5,000
評論已經被關(guan) 閉。