kaggle,這是在CS領域最出名的競賽之一,如果你學CS沒有聽過kaggle,就相當於(yu) 學數學專(zhuan) 業(ye) 沒有聽過AMC一樣不可思議。
Kaggle競賽憑借它的題目有趣,不限年齡、背景和國籍,入門快且含金量高等優(you) 勢,倍受準留學生們(men) 的熱捧。如果你想學CS專(zhuan) 業(ye) ,就必須好好了解這個(ge) 競賽,一起來看看吧。
競賽介紹
Kaggle成立於(yu) 2010年,是一個(ge) 進行數據發掘和預測競賽的在線平台。從(cong) 公司的角度來講,可以提供一些數據,進而提出一個(ge) 實際需要解決(jue) 的問題;從(cong) 參賽者的角度來講,他們(men) 將組隊參與(yu) 項目,針對其中一個(ge) 問題提出解決(jue) 方案,最終由公司選出的最佳方案可以獲得5K-10K美金的獎金。
除此之外,Kaggle官方每年還會(hui) 舉(ju) 辦一次大規模的競賽,獎金高達一百萬(wan) 美金,吸引了廣大的數據科學愛好者參與(yu) 其中。從(cong) 某種角度來講,大家可以把它理解為(wei) 一個(ge) 眾(zhong) 包平台,類似國內(nei) 的豬八戒。
但是不同於(yu) 傳(chuan) 統的低層次勞動力需求,Kaggle一直致力於(yu) 解決(jue) 業(ye) 界難題,因此也創造了一種全新的勞動力市場——不再以學曆和工作經驗作為(wei) 唯一的人才評判標準,而是著眼於(yu) 個(ge) 人技能,為(wei) 頂尖人才和公司之間搭建了一座橋梁。
競賽含金量
助力名校申請
一段帶獎金高難度的Kaggle比賽的 Prize Winner經曆並不會(hui) 比一段互聯網大廠數據分析實習(xi) 經曆遜色,Kaggle項目可以直觀地展現你的數據分析能力。Kaggle作為(wei) 數據科學行業(ye) 極富盛名的平台,在業(ye) 界具有極高的認可度。在找相關(guan) 工作時,一段Kaggle Prize Winner經曆將大大提高你的錄取概率。
學界認可度
得益於(yu) Kaggle的海量數據集和開放性,它還成為(wei) 了一個(ge) 非常棒的教學實踐平台,吸引到哥大、紐大、上交大等設立了相關(guan) 領域的Capstone Project,以及哈佛、牛津、斯坦福等開設Kaggle-in-Class的課程項目。
Kaggle優(you) 勢
-
Kaggle交流社區的活躍度非常高,許多優(you) 秀選手會(hui) 在社區裏開源代碼、分享心得,一起成長
-
Kaggle會(hui) 根據每場比賽的排名,受到許多企業(ye) 認可
-
比賽全英文,可以練習(xi) 英語
業(ye) 界含金量高
許多科技巨頭在Kaggle舉(ju) 辦Recruitment類的競賽用於(yu) 招聘數據科學家,比如 Facebook、Amazon、Walmart。
Featured類的比賽為(wei) 解決(jue) 商業(ye) 問題而設立,是Kaggle平台最主要的競賽類型,獎金高競爭(zheng) 激烈,有金銀銅牌獎勵,對參賽選手的能力有一定的要求,同時這意味著如果可以取得較好的成績排名,對於(yu) 相關(guan) 領域的申請、求職能起到很強的背書(shu) 。
引用知乎作者@a2方方老師所做的調研:
Kaggler A:參加此項目,你不可或缺的品質就是持續的熱情和堅韌不拔的毅力,即使是對這方麵很熟悉,和另外兩(liang) 個(ge) 專(zhuan) 攻CS和統計方向的小夥(huo) 伴組隊,一個(ge) 難度中等的項目做下來也要投入兩(liang) 周,每天工作10h以上。更別提那些有著強迫症,一遍遍修改方案,直至deadline的完美主義(yi) 大牛了。我相信沒有一支奪冠隊伍是在提交方案後完全沒改過的,頂尖高手的成功不僅(jin) 是基於(yu) 他們(men) 的專(zhuan) 業(ye) 素養(yang) ,還有其背後我們(men) 看不到的勤奮。
Kaggler B:在出國前對Kaggle競賽聞所未聞,來到美國以後,在導師的引導下知道了Kaggle這個(ge) 巨大的學習(xi) 源,經常在上麵學習(xi) 。在我看來,Kaggle的背書(shu) 還是非常有用的,排位前幾十的都是大神級別,他們(men) 從(cong) 來不需要找工作,都是工作來找他們(men) 。而對我們(men) 這樣的小白,如果沒有整塊時間找實習(xi) 或者沒有找到合適的實習(xi) 機會(hui) ,利用閑暇時間做一些Kaggle項目,寫(xie) 在簡曆上也能算做一些項目經驗,更容易得到麵試;同時,在做項目的過程中,實實在在的Skills的提高也能讓我們(men) 在求職時筆試的表現更好,獲得更好的工作機會(hui) 。
從(cong) 這兩(liang) 個(ge) 采訪也不難看出kaggle競賽對於(yu) 不同階段的學生甚至社會(hui) 從(cong) 業(ye) 者的影響以及含金量有多大。
競賽詳細內(nei) 容
競賽要求:
編程語言
最基礎的入門學者也需要學會(hui) 初步使用一門編程語言。對於(yu) 毫無基礎的新手,推薦使用Python,因為(wei) Python作為(wei) 一種強大的膠水語言,可迅速入門。
探索數據
光有編程語言是不夠的,還需要學習(xi) 如何探索性分析你手上的數據,這是進入數據科學的第一步。因為(wei) 通常到手的數據都多到不可思議,你要學會(hui) 取舍和迅速獲取最有用的信息。
模型訓練
熟悉使用機器學習(xi) 庫,培養(yang) 良好的習(xi) 慣,為(wei) 之後的工作做鋪墊實戰,從(cong) 初級可以逐漸增加難度。
參賽時間
全年滾動,隨時可以報名
適合人群
對數據科學、數據挖掘、機器學習(xi) 感興(xing) 趣的高中生
有一定計算機背景的大學生
競賽流程:
-
注冊(ce) 賬號(一人隻能有一個(ge) 賬號)
-
選擇想要參賽的項目
-
下載題目的數據
-
時間截止,評出最優(you) 者
-
獲獎的隊伍必須提交源代碼
注:可以以個(ge) 人或組隊的形式參加比賽,在參賽時可以相互分享經驗。
比賽形式 :
Classic:在比賽開始後,用戶可以訪問完整的數據集。並可以選擇在本地或在線進行建模、預測生成預測文件,最後提交預測結果。目前大多數比賽采取本形式。
Two-stage:分為(wei) 第一階段和第二階段,第二階段建立在第一階段的結果上,第一階段完成才可參加第二階段。
Kernels:參賽者必須在線提交代碼,更加公平,使每個(ge) 參賽者都使用相同配置的電腦。
競賽獎項設置
kaggle的評價(jia) 體(ti) 係 kaggle的用戶評價(jia) 體(ti) 係是基於(yu) 三個(ge) 維度的:競賽、代碼以及社區參與(yu) 。根據這三個(ge) 維度把kaggle的用戶分成了5個(ge) 等級:
Novice :初始等級,隻要注冊(ce) 就算
Contributor :添加資料信息,並且進行了各種指定的動作即可。如上兩(liang) 個(ge) 等級沒有考慮到用戶的比賽成績和社區聲望。
Expert :獲得兩(liang) 枚競賽銅牌;5枚代碼銅牌;以及50枚討論銅牌
Master :獲得一枚競賽金牌,兩(liang) 枚競賽銀牌;10枚代碼銀牌;50枚討論銀牌以及總共200枚討論獎牌
Grandmaster :獲得5枚競賽金牌,solo競賽金牌;15枚代碼金牌;50枚討論金牌以及總共500枚討論獎牌。
評論已經被關(guan) 閉。