kaggle計算機競賽怎麽樣?

Kaggle是一個(ge) 全球知名的數據科學競賽在線平台。由Anthony Goldbloom和Ben Hamner創立於(yu) 2010年,是一個(ge) 進行數據發掘和預測競賽的在線平台,也是全球最大的數據科學社區和數據科學競賽平台,2017年被Google收購。

Kaggle競賽由於(yu) 題目有趣,不限年齡、背景和國籍,入門快且含金量高等優(you) 勢,倍受留學生們(men) 的熱捧,不止中學生可以參加,所有計算機愛好者,甚至計算機領域的從(cong) 業(ye) 人員都可以報名。

一段帶獎金高難度的Kaggle比賽的 Prize Winner經曆並不會(hui) 比一段互聯網大廠數據分析實習(xi) 經曆遜色,Kaggle項目可以直觀地展現你的數據分析能力。Kaggle作為(wei) 數據科學行業(ye) 極富盛名的平台,在業(ye) 界具有極高的認可度。

得益於(yu) Kaggle的海量數據集和開放性,它還成為(wei) 了一個(ge) 非常棒的教學實踐平台,吸引到哥大、紐大、上交大等設立了相關(guan) 領域的Capstone Project,以及哈佛、牛津、斯坦福等開設Kaggle-in-Class的課程項目。

此外,眾(zhong) 多國際大型和重要學術組織、機構,如IEEE、NASA、CERN等都在Kaggle上舉(ju) 辦或多次支持(公開數據集)了不同類型的競賽,幫助他們(men) 自己或合作方解決(jue) 棘手的科研問題。

競賽介紹

適合人群

對數據科學、數據挖掘、機器學習(xi) 感興(xing) 趣的高中生

有一定計算機背景的大學生

參加Kaggle還是需要有一定編程基礎,同時對現實問題有濃厚興(xing) 趣,並擅長運用所學知識去解決(jue) 這些問題的學生。

參賽時間

全年滾動,隨時可以報名

比賽形式

  • Classic:在比賽開始後,用戶可以訪問完整的數據集。並可以選擇在本地或在線進行建模、預測生成預測文件,最後提交預測結果。目前大多數比賽采取本形式。
  • Two-stage:分為第一階段和第二階段,第二階段建立在第一階段的結果上,第一階段完成才可參加第二階段。
  • Kernels:參賽者必須在線提交代碼,更加公平,使每個參賽者都使用相同配置的電腦。

競賽分類

麵向初學者

  • Getting Started:適合基礎入門選手,與Featured競賽結構類似,但並沒有獎金,讓初學者體會機器學習、積攢經驗為主;
  • Playground:有趣的比賽,主要看創意,而非解決具體的研究問題

麵向競賽者

  • Recruitment:讚助商為招聘數據科學家而設立的比賽,適合想要去發布公司求職的人,以各大公司需要招募相關職業為主;
  • Featured:為解決商業問題,適合數據科學高手參與,通常是由公司,組織或政府等讚助的,獎金池最大;
  • Research:解決學界前沿問題,同樣適合數據科學高手參與,以研究為主要方向的競賽,獎金相比Featured較少;
  • Masters:大師級別比賽的,難度最高,項目也最少

競賽流程

  1. 注冊賬號(一人隻能有一個賬號)
  2. 選擇想要參賽的項目
  3. 下載題目的數據
  4. 時間截止,評出最優者
  5. 獲獎的隊伍必須提交源代碼

注:可以以個(ge) 人或組隊的形式參加比賽,在參賽時可以相互分享經驗。

競賽時間及獎項

kaggle的評價(jia) 體(ti) 係是基於(yu) 三個(ge) 維度的:競賽、代碼以及社區參與(yu) 。根據這三個(ge) 維度把kaggle的用戶分成了5個(ge) 等級:

  • Novice :初始等級,隻要注冊就算
  • Contributor :添加資料信息,並且進行了各種指定的動作即可。如上兩個等級沒有考慮到用戶的比賽成績和社區聲望。
  • Expert :獲得兩枚競賽銅牌;5枚代碼銅牌;以及50枚討論銅牌
  • Master :獲得一枚競賽金牌,兩枚競賽銀牌;10枚代碼銀牌;50枚討論銀牌以及總共200枚討論獎牌
  • Grandmaster :獲得5枚競賽金牌,solo競賽金牌;15枚代碼金牌;50枚討論金牌以及總共500枚討論獎牌。

想要在Kaggle競賽中取得名次,難嗎?

想在Kaggle競賽中名列前茅的難度非常大;因為(wei) 一個(ge) 競賽項目往往參與(yu) 人數可以達到數千人,但隻有Top 1可以得到獎金。

根據以往經驗來看,就算是有一定知識儲(chu) 備的業(ye) 內(nei) 選手組隊,也很難在初次比賽中取得好名次;由於(yu) Kaggle的獲獎難度比較大,針對性的密集備賽還是很有必要的。

比賽技能要求

編程語言

kaggle 挑戰賽

最基礎的入門學者也得先學會(hui) 初步使用一門編程語言。對於(yu) 毫無基礎的新手,推薦使用Python,因為(wei) Python作為(wei) 一種強大的膠水語言,可以迅速入門。

探索數據

kaggle 挑戰賽

光有編程語言是不夠的,還需要學習(xi) 如何探索性分析你手上的數據,這是進入數據科學的第一步,因為(wei) 通常到手的數據都多到不可思議,你要學會(hui) 取舍和迅速獲取最有用的信息。

模型訓練

kaggle 挑戰賽

熟悉使用機器學習(xi) 庫,培養(yang) 良好的習(xi) 慣,為(wei) 之後的工作做鋪墊。

實戰

kaggle 挑戰賽

從(cong) 初級可以逐漸增加難度。

競賽內(nei) 容

Kaggle競賽不止中學生可以參加,所有計算機愛好者,甚至計算機領域的從(cong) 業(ye) 人員都可以報名,再加上它需要你在提供的大型數據庫裏找到命題所需要的數據,還需要找到最合適的方式,將所需數據整編出來,想從(cong) 中脫穎而出確實有一定難度。可以看下麵的例題:

招生官:為(wei) 什麽(me) 我總勸這些學生,一定要參加kaggle比賽?

這道題說Twitter、微博等社交媒體(ti) 上有時會(hui) 有用戶發布報警求助信息,因此社交媒體(ti) 希望建立一個(ge) 災難預警識別係統,可以快速判斷哪些信息是需要第一時間進行消息擴散救援的。當今社交媒體(ti) 數據量非常龐大,想在數以萬(wan) 計的數據中找到關(guan) 鍵信息,對挑戰者而言是有難度的一件事。

賽題示例

  • Allstate索賠預測挑戰 - 使用客戶的購物曆史記錄來預測他們購買的保險單
  • 有害評論分類挑戰 - 預測維基百科上有害評論的存在和類型
  • Zillow獎 - 構建一個機器學習算法,可以挑戰Zesow,Zillow房地產價格估算算法
  • 穀歌地標檢索挑戰 - 如果有圖像,您能在數據集中找到所有相同的地標嗎?
  • 右鯨識別 - 識別航空照片中瀕臨滅絕的露脊鯨
  • 大規模分層文本分類 - 將維基百科文檔分類為約300,000個類別之一
  • 泰坦尼克號:從災難中進行機器學習,預測泰坦尼克號的生存幾率
  • 房價預測:回歸方法
  • 貓與狗:創建一種算法去區分貓與狗
  • 紐約出租車行程持續時間:通過數據改善乘車時間預測
  • 商店銷售預測
  • 新用戶預定預測

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

雅思考到四個7分及以上難嗎?

下一篇

Electrical Engineering專業申請分析

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部