比賽名稱:AMP®-Parkinson's Disease Progression Prediction
使用帕金森病患者的蛋白質和肽數據測量來預測疾病的進展。
比賽鏈接:https://www.kaggle.com/competitions/amp-parkinsons-disease-progression-prediction
比賽類型:數據挖掘、時序回歸
比賽背景
帕金森病是一種致殘性腦部疾病,會(hui) 影響運動、認知、睡眠和其他正常功能。不幸的是,目前沒有治愈方法——而且這種疾病會(hui) 隨著時間的推移而惡化。
據估計,到2037年,美國將有 160 萬(wan) 人患有帕金森病,經濟成本將接近 800 億(yi) 美元。研究表明,蛋白質或肽異常在這種疾病的發作和惡化中起著關(guan) 鍵作用。在數據科學的幫助下更好地理解這一點,可以為(wei) 開發新的藥物療法以減緩帕金森病的進展或治愈帕金森病提供重要線索。
目前已經產(chan) 生了關(guan) 於(yu) 10,000 多個(ge) 受試者的複雜臨(lin) 床和神經生物學數據,以便與(yu) 研究界廣泛共享。使用這些數據發表了許多重要發現,但仍然缺乏明確的生物標誌物或治療方法。
競賽主辦方 Accelerating Medicines Partnership® 帕金森病 (AMP®PD) 是政府、行業(ye) 和非營利組織之間的公私合作夥(huo) 伴關(guan) 係,由美國國立衛生研究院 (FNIH) 基金會(hui) 管理。
比賽任務
本次比賽的目標是預測 MDS-UPDR 評分,該評分衡量帕金森病患者的進展情況。您將開發一個(ge) 模型,該模型根據帕金森病患者與(yu) 年齡匹配的正常對照組的蛋白質和肽水平隨時間變化的數據進行訓練。
評價指標
提交的內(nei) 容在 SMAPE 上根據預測值和實際值進行評估。當實際值和預測值都為(wei) 0 時,定義(yi) SMAPE = 0。
數據描述
本次比賽的目標是使用蛋白質豐(feng) 度數據預測帕金森病的病程。參與(yu) 帕金森病的完整蛋白質組仍然是一個(ge) 懸而未決(jue) 的研究問題,任何具有預測價(jia) 值的蛋白質都可能值得進一步研究。
數據集的核心包括蛋白質豐(feng) 度值,這些蛋白質豐(feng) 度值源自從(cong) 數百名患者收集的腦脊液樣本的質譜讀數。每個(ge) 患者在多年的過程中貢獻了幾個(ge) 樣本,同時他們(men) 還對帕金森病嚴(yan) 重程度進行了評估。
這是一個(ge) 時間序列代碼競賽:您將收到測試集數據並使用 Kaggle 的時間序列 API 進行預測。
-
train_peptides.csv 肽水平的質譜數據。肽是蛋白質的組成亞(ya) 基。
- visit_id - 訪問的 ID 代碼。
- visit_month - 就診月份,與患者首次就診相關。
- patient_id - 患者的 ID 代碼。
- UniProt - 相關蛋白質的 UniProt ID 代碼。每個蛋白質通常有幾個肽。
- Peptide - 肽中包含的氨基酸序列。相關代碼見下表。一些罕見的注釋可能未包含在表中。
- PeptideAbundance - 樣品中氨基酸的頻率。
-
train_proteins.csv 從(cong) 肽水平數據聚合的蛋白質表達頻率。
- visit_id - 訪問的 ID 代碼。
- visit_month - 就診月份,與患者首次就診相關。
- patient_id - 患者的 ID 代碼。
- UniProt - 相關蛋白質的 UniProt ID 代碼。每個蛋白質通常有幾個肽。
- NPX - 標準化的蛋白質表達。樣品中蛋白質出現的頻率。可能與組成肽沒有 1:1 的關係,因為某些蛋白質包含給定肽的重複拷貝。
-
train_clinical_data.csv
- visit_id - 訪問的 ID 代碼。
- visit_month - 就診月份,與患者首次就診相關。
- patient_id - 患者的 ID 代碼。
- updrs_[1-4] - 患者在統一帕金森病評定量表 N 部分的得分。
- upd23b_clinical_state_on_medication - 患者在 UPDRS 評估期間是否正在服用左旋多巴等藥物。
- supplemental_clinical_data.csv 沒有任何相關 CSF 樣本的臨床記錄。該數據旨在提供有關帕金森病典型進展的更多背景信息。
-
example_test_files/ 旨在說明 API 功能的數據。
-
amp_pd_peptide/ 啟用 API 的文件。
-
public_timeseries_testing_util.py 一個(ge) 可選文件,旨在更輕鬆地運行自定義(yi) 離線 API 測試。
比賽賽程
- 2023年5月11日:組隊截止日期。
- 2023年5月17日:最終提交截止日期。
賽題獎金
- 第一名:25,000 美元
- 第二名:20,000 美元
- 第三名:15,000 美元
解題思路
賽題是一個(ge) 典型的數據挖掘賽題,擁有多張表,且是按照患者作為(wei) 樣本。如果擁有額外的專(zhuan) 業(ye) 知識更好。
在解決(jue) 題目時,需要考慮:
- 支持多維輸入的時序預測模型
- 模型預測速度,需要實時預測
- 模型穩定性和波動性
按照樣本個(ge) 數,應該是樹模型和基礎時序模型為(wei) 主要的預測模型。
評論已經被關(guan) 閉。