賽題名稱:ICR - Identifying Age-Related Conditions
使用機器學習(xi) 通過測量匿名特征來檢測疾病
https://www.kaggle.com/competitions/icr-identify-age-related-conditions
賽題任務:數據挖掘
賽題背景
年齡隻是一個(ge) 數字,但隨著年齡的增長會(hui) 帶來一大堆健康問題。從(cong) 心髒病和癡呆到聽力損失和關(guan) 節炎,衰老是許多疾病和並發症的危險因素。不斷發展的生物信息學領域包括對有助於(yu) 減緩和逆轉生物衰老以及預防與(yu) 年齡相關(guan) 的主要疾病的幹預措施的研究。數據科學可以在開發新方法來解決(jue) 各種數據問題方麵發揮作用,即使樣本數量很少。
目前,XGBoost 和隨機森林等模型用於(yu) 預測醫療狀況,但模型的性能還不夠好。在處理生命垂危的關(guan) 鍵問題時,模型需要在不同案例之間做出可靠且一致的正確預測。
賽題任務
在本次比賽中,您將使用健康特征數據的測量來解決(jue) 生物信息學中的關(guan) 鍵問題。基於(yu) 較少的訓練集,您將創建一個(ge) 模型來預測一個(ge) 人是否患有三種疾病中的任何一種,目的是改進現有方法。
賽題數據
比賽數據包含與(yu) 三種與(yu) 年齡相關(guan) 的狀況相關(guan) 聯的五十多個(ge) 匿名健康特征。您的目標是預測受試者是否被診斷出患有這些病症之一——二元分類問題。
請注意,這是一個(ge) 代碼競賽,其中隱藏了實際的測試集。在此版本中,我們(men) 以正確的格式提供了一些示例數據,以幫助您編寫(xie) 解決(jue) 方案。當您提交的內(nei) 容被評分時,此示例測試數據將被替換為(wei) 完整的測試集。完整測試集中大約有 400 行。
- train.csv訓練集
- test.csv - 測試集。您的目標是預測該集合中的受試者屬於兩個類別中的每個類別的概率。
- greeks.csv:補充元數據,僅適用於訓練集。
- sample_submission.csv - 格式正確的示例提交文件。
評價指標
使用對數損失評估提交。總體(ti) 效果是每個(ge) 班級對最終分數的重要性大致相同。
每個(ge) 觀察值要麽(me) 是類的0,要麽(me) 是類的1。對於(yu) 每次觀察,您必須提交每個(ge) 類別的概率。
賽題賽程
2023 年 8 月 3 日- 報名截止日期。您必須在此日期之前接受比賽規則才能參加比賽。
2023 年 8 月 3 日- 團隊合並截止日期。這是參與(yu) 者可以加入或合並團隊的最後一天。
2023 年 8 月 10 日- 最終提交截止日期。
賽題解析
賽題是一個(ge) 典型的數據挖掘的比賽,但難點在於(yu) 數據量比較少,且數據是匿名。
比賽的關(guan) 鍵點是能挖掘穩定的特征,並對特征進行解釋和篩選,然後構建穩定的模型。
https://www.kaggle.com/code/keitashimizu21/en-ja-first-firsteda-baseline-icr
https://www.kaggle.com/code/samuelabatnehendalie/icr-identifying-age-related-conditions
評論已經被關(guan) 閉。