Kaggle知識點:入門到進階的10個問題

Kaggle知識點

在我們(men) 之前的分享中我們(men) 大多以具體(ti) 的競賽案例,如某個(ge) 競賽的Top解決(jue) 方案來講解具體(ti) 的比賽。那麽(me) 是不是有更好的學習(xi) 方法呢?答案是肯定有,大部分Kaggle賽題都是相通或者類似的,還有一些通用的問題。

問題1:賽題是哪一種類型?

首先參加Kaggle競賽,你需要知道有哪些具體(ti) 的比賽類型。具體(ti) 分類如下圖所示,當然有多種分類方法。

Kaggle知識點:入門到進階的10個(ge) 問題

最為(wei) 主要的類型區別有:

賽題的提交方式(提交結果、Kernel

賽題問題類型(CV、NLP或結構化)

問題2:賽題問題是什麽(me) ?

在確定好賽題類型後,你應該仔細閱讀賽題的Overview界麵弄清楚的賽題的具體(ti) 問題。當然賽題描述不會(hui) 很明確的說出賽題具體(ti) 問題,需要選手自行進行分辨。

在回答問題2時,需要弄清楚:

賽題是CV、NLP還是結構化中的哪一種?

賽題對應於(yu) 學術問題的中哪一種?

賽題我之前見過嗎?有代碼或知識的積累?

Kaggle有類似賽題任務嗎,有選手分享嗎?

問題3:賽題數據如何建模?

在弄清楚賽題類型和具體(ti) 的問題後,需要弄清楚賽題問題的建模方式,這一點就涉及到具體(ti) 的建模的方法和模型了。當然也並不是所有的賽題都是新任務,Kaggler隻需要熟知曆史任務,並進行舉(ju) 一反三就可以了。在問題3你應該弄清楚:

問題有不同的建模方式,哪一種更加適合?

問題建模應該使用哪一個(ge) 模型?

問題模型如何迭代,如何優(you) 化?

Kaggle知識點:入門到進階的10個(ge) 問題

問題4:賽題數據的細節理解? 

在了解了賽題的初步的任務和建模方法後,接下來就要深入到細節中了。你應該深入理解賽題數據的字段含義(yi) 、字段產(chan) 生方式和標簽的產(chan) 生方式。

對於(yu) 結構化數據的每個(ge) 字段:

字段的類型、含義(yi) 是什麽(me)

字段與(yu) 標簽有什麽(me) 關(guan) 係?

在回答問題4時,可以從(cong) 描述性數據分析和探索性數據分析兩(liang) 個(ge) 角度來完成。賽題的理解決(jue) 定了賽題的具體(ti) 建模方式,是尤為(wei) 關(guan) 鍵的一點。

問題5:賽題使用什麽(me) 模型?

問題5與(yu) 問題3有點類似,但在問題5你應該回答的更加具體(ti) ,

賽題具體(ti) 使用到的模型是什麽(me) ?

模型有哪些超參數可供選擇?

有類似模型可以對比參考嗎?

在回答問題5時,需要根據問題4的答案來進行接解決(jue) 。首先根據賽題具體(ti) 的數據類型,可以將賽題分為(wei) 結構化賽題和非機構化賽題。同時在回答問題5時,你應該跑通或者寫(xie) 完baseline了。

問題6:模型處於(yu) 那種階段?

機器學習(xi) 模型根據狀態可以分為(wei) 欠擬合和過擬合,當然你應該追求模型對測試集最好擬合的狀態。也就是說,你應該知道模型此時的狀態。

如果模型是欠擬合你應該做什麽(me) ?

如果模型是過擬合你應該做什麽(me) ?

問題7:賽題上分點是什麽(me) ?

當你回答完前麵6個(ge) 問題後,基本上你已經提交過一次答案,已經成功上榜了。但是這些還不夠,與(yu) 前排選手相比你的模型精度還有待優(you) 化。

因此你需要弄清楚:

前排選手與(yu) 自己的精度差異在哪兒(er) ?

自己還能從(cong) 哪些地方上分?

回答問題7最好的方法是閱讀比賽論壇和相關(guan) 論文,當然這些問題的具體(ti) 答案隻能自己回答自己了。從(cong) 問題7開始,你開始真正的競賽探索過程。

問題8:本地CV與(yu) 線上得分?

在模型訓練的過程中,本地驗證集CV的得分非常重要。同時本地CV與(yu) 線上得分的差異性也至關(guan) 重要,也就是CV vs 線上(PB)。在Kaggle每個(ge) 比賽中,經常會(hui) 有人對比自己CV與(yu) 線上得分的差異性(gap)。這樣對比的作用是:

尋找更好的本地CV得分;

尋找更加問題的gap;

通過問題8,你將會(hui) 對賽題線上線下有初步的感知,這將會(hui) 影響你的最終得分。當然分布需要細心觀察,反複試驗得到的。

Kaggle知識點:入門到進階的10個(ge) 問題

問題9:賽題如何完成集成?

在不斷回答自己問題的同時,你還需要考慮模型最終的集成問題。模型集成在有些Kaggle競賽中非常重要,會(hui) 帶來精度增益。

但是模型集成是需要得分差異性,需要訓練多個(ge) 模型的:

如何完成stacking和簡單的KFlod平均?

深度學習(xi) 模型如何完成模型集成?

問題10:賽題如何完成總結?

最後的最後,在比賽完結後不管結果如何。希望你在閱讀和反思比賽的曆程後回答自己這些問題:

通過本次比賽我學習(xi) 到什麽(me) ?

我與(yu) 前排選手差異在哪兒(er) ?

遇到下次類似比賽,我將如何行動?

參加比賽還是很耗費資源和時間,無論大家結果如何,希望大家都有所收獲。希望大家都不要翻車~

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

小托福詞匯量要求是多少?小托福考試內容考試難度分數要求分析

下一篇

高頻複現雅思作文(1):將文化傳統用於賺錢的利弊(雙語)

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部