Kaggle競賽全解析!

號稱是全球最大的數據科學家匯聚的平台,高手雲(yun) 集,同時對萌新也很友好。Kaggle網址:Your Home for Data Science。版塊:

1、競賽competitions

2、數據datasets

3、代碼kernels

4、論壇forums

5、工作機會(hui) jobs

幹貨|Kaggle競賽全解析!

從(cong) 版塊的曆史沿革來看,kaggel已經不滿足與(yu) 競賽題目發布-方案征集的定位,正逐步發展成數據科學家學習(xi) 、交流的綜合平台。本篇重點介紹“競賽”、“數據”、“代碼”這幾個(ge) 版塊,便於(yu) 快速開啟一個(ge) kaggel競賽題目。

競賽板塊

“競賽”版塊是發布競賽題目和參加競賽的入口。參加kaggle的競賽流程基本是:

選一個(ge) 題目>>

下載數據>>

訓練模型>>

提交結果>>

查看排名>>

優(you) 化模型(迭代)>>

最終提交>>

比賽結束

Kaggle競賽分類

從(cong) 參賽者的角度看,競賽種類有:推薦比賽Featured、人才征募Recruitment、研究型Research、遊樂(le) 場Playground、入門比賽Getting Started、課業(ye) 比賽In Class。

推薦比賽Featured是瞄準商業(ye) 問題帶有獎金的公開競賽。如果有幸贏得比賽,不但可以獲得獎金,模型也可能會(hui) 被競賽讚助商應用到商業(ye) 實踐中呢。

幹貨|Kaggle競賽全解析!

人才征募Recruitment的競賽是讚助企業(ye) 尋求數據科學家、算法設計人才的渠道。隻允許個(ge) 人參賽,不接受團 隊報名。

研究型Research競賽通常是機器學習(xi) 前沿技術或者公益性質的題目。競賽獎勵可能是現金,也有一部分以會(hui) 議邀請、發表論文的形式獎勵。

遊樂(le) 場Playground裏的題目以有趣為(wei) 主,比如貓狗照片分類的問題。現在這個(ge) 分類下的題目不算多,但是熱度很高。

入門比賽Getting Started給萌新們(men) 一個(ge) 試水的機會(hui) ,沒有獎金,但有非常多的前輩經驗可供學習(xi) 。很久以前Kaggle這個(ge) 欄目名稱是101的時候,比賽題目還很多,但是現在隻保留了4個(ge) 最經典的入門競賽:手寫(xie) 數字識別、沉船事故幸存估計、臉部識別、Julia語言入門。

課業(ye) 比賽In Class是學校教授機器學習(xi) 的老師留作業(ye) 的地方,這裏的競賽有些會(hui) 向public開放參賽,也有些僅(jin) 僅(jin) 是學校內(nei) 部教學使用。

除此以外,還有大師邀請賽Master、前沿探索型Kaggle Prospect等非公開的競賽,這裏不做介紹了。

Kaggle競賽的排名機製

了解Kaggle的排名機製也會(hui) 對取得好成績有所幫助。在比賽結束之前,參賽者每天最多可以提交5次測試集的預測結果。每一次提交結果都會(hui) 獲得最新的臨(lin) 時排名成績,直至比賽結束獲得最終排名。

在比賽過程中,Kaggle將參賽者每次提交的結果取出25%-33%,並依照準確率進行臨(lin) 時排名。在比賽結束時,參賽者可以指定幾個(ge) 已經提交的結果,Kaggle從(cong) 中去除之前用於(yu) 臨(lin) 時排名的部分,用剩餘(yu) 數據的準確率綜合得到最終排名。

所以,比賽過程中用於(yu) 最終排名的那部分數據,參賽者是始終得不到關(guan) 於(yu) 準確率的反饋的。這樣一定程度避免參賽模型的過擬合,保證評選出兼顧準確率和泛化能力的模型。

數據板塊

每一個(ge) 競賽題目都有一個(ge) 數據入口,描述數據相關(guan) 的信息,與(yu) 主頁上的Datasets選擇一個(ge) 數據其實指向同一個(ge) 地方。在這裏可以下載到提交結果的示範、測試集、訓練集。Kaggle的數據以CSV格式最常見,提交的結果也要求是CSV格式。

代碼Kernels

這是Kaggle最棒的功能!在這裏可以看到其他參賽者自願公開的模型代碼,是學習(xi) 和交流的最佳所在!當然這個(ge) 版塊取名為(wei) kernels,意味支持線上調試和運行你的代碼,目前支持Python、R,當然也支持像numpy、pandas流行的數據分析庫。

從(cong) 零開始,教初學者如何征戰Kaggle競賽

Kaggle 上有兩(liang) 個(ge) 最適合新手的競賽(某種程度上已成為(wei) Kaggle 的「入門教程」):

Titanic(預測生存:一種二元分類問題):

https://www.kaggle.com/c/titanic

房價(jia) (預測價(jia) 格:回歸問題):

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

在每個(ge) 競賽的「Overview」(概覽)選項卡上,你可以看到關(guan) 於(yu) 比賽及其數據集的一些信息、提交有效結果的評估標準(每個(ge) 競賽都略有不同),以及該競賽的 FAQ。

「Data」(數據)選項卡上,你可以看到數據的簡要說明。我們(men) 需要的是這三個(ge) 文件:train.csv、test.csv 和 data_description.txt(這是至關(guan) 重要的,因為(wei) 其中包含數據的詳細描述),請將它們(men) 放在你可以快速訪問的文件夾裏。

「Discussions」(討論)選項卡就像競賽的專(zhuan) 屬論壇——不過不要低估它!在流行的競賽中,這些討論中經常包含非常有價(jia) 值的信息,因為(wei) 競賽條款有時會(hui) 要求參與(yu) 者必須在討論版上公開他們(men) 所使用的任何信息。例如,數據泄露是很難避免和處理的,偶爾也會(hui) 發生在競賽中。一方麵,充分利用數據才能得到更高的分數贏得競賽;但另一方麵,結合了數據泄露的模型通常對於(yu) 實踐來說是無用的,所以也不被競賽支持——因為(wei) 它們(men) 使用了「非法」信息。勤奮的參與(yu) 者經常會(hui) 在討論版上分享數據泄露以幫助競賽環境變得更好。此外,Kaggle 的成員也會(hui) 經常在其上分享一些信息,努力維護這個(ge) 社區。在排行榜上名列前茅的參與(yu) 者有時也會(hui) 在其中分享自己的成功經驗(通常會(hui) 在競賽結束前後)。

「Kernel」選項卡基本上是「討論」版塊的應用、代碼版,我認為(wei) 這是對於(yu) 初學者而言最重要的一個(ge) 版塊。任何人都可以在其中分享自己的腳本或筆記,鏈接任何數據集與(yu) 競賽,形式可以是文檔、注釋、可視化和輸出,每個(ge) 人都可以觀看、投票、複製這些內(nei) 容,甚至也可以在瀏覽器上直接運行它們(men) !

我剛才提到的兩(liang) 個(ge) 競賽(Titanic、房價(jia) 競賽)都形成了有趣、漂亮、成功的 Kernel,強烈推薦進行過自己的嚐試之後瀏覽這個(ge) 版塊。Kaggle 正在不斷提升 Kernel 的功能,現在甚至有一個(ge) 「僅(jin) 限 Kernel」、獎金為(wei) 10 萬(wan) 美元的競賽。

不過,Kernel 中的討論往往是硬核的,缺乏有關(guan) 概念的解釋,或者說預先認為(wei) 你已具備相關(guan) 知識,所以有時了解起來會(hui) 有些許困難。

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

加拿大前10 計算機科學CS專業申請指南

下一篇

丘成桐中學科學獎含金量/參賽規則/獎項設置等一文讀懂!附丘獎往屆獲獎論文

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部