Kaggle競賽銀牌實用技巧

Kaggle是全世界數據科學愛好者的競技場,每個(ge) 月都會(hui) 有若幹項目開放出來,如果能通過競技拿到金牌或者銀牌,不僅(jin) 證明了自己數據挖掘能力已經到了一個(ge) 不錯的地步,也能帶來一定的成就感。更重要的是,kaggle競賽如果取得靠前的名次,對於(yu) 實習(xi) 、求職、學申請都是很好的加分項。

Kaggle競賽銀牌實用技巧

那麽(me) ,新手如何快速進階kaggle比賽呢?

除了常規的python編程、基本的機器學習(xi) 知識以外,還有很多技巧和規律,下麵小編就來一一揭開。

1 特征工程

在kaggle競賽中,特征工程通常占據了數據科學家很大一部分的精力,一方麵是因為(wei) 特征工程能夠顯著提升模型性能,高質量的特征能夠大大簡化模型複雜度,讓模型變得高效且易理解、易維護。另一方麵對於(yu) 一個(ge) 機器學習(xi) 問題,數據和特征決(jue) 定了機器學習(xi) 的上限,而模型和算法隻是逼近這個(ge) 上限而已。

Kaggle競賽銀牌實用技巧

2 實用模型

Kaggle比賽中最常用的模型包括XGBoost、LightGBM、CatBoost、Tabnet、MLP和Transformer。熟練掌握這些模型,就已經具有了達到Kaggle Expert的能力,並且能夠快速解決(jue) 很多實際場景的問題,受益匪淺。

Kaggle競賽銀牌實用技巧

對於(yu) 數據挖掘問題,XGBoost、LightGBM、CatBoost三個(ge) 模型是必備,查看kaggle過往比賽中,獲獎模型基本有這三個(ge) 模型包攬,深度學模型雖然有很多優(you) 勢,但在數據挖掘問題上,樹模型的優(you) 勢顯然是不可替代的。

Kaggle競賽銀牌實用技巧

XGBoost

XGBoost是eXtreme Gradient Boosting的縮寫(xie) 稱呼,它是一個(ge) 非常強大的Boosting算法工具包,優(you) 秀的性能(效果與(yu) 速度)讓其在很長一段時間內(nei) 霸屏數據科學比賽解決(jue) 方案榜首,現在很多大廠的機器學習(xi) 方案依舊會(hui) 首選這個(ge) 模型。XGBoost在並行計算效率、缺失值處理、控製過擬合、預測泛化能力上都變現非常優(you) 秀。

LightGBM

LightGBM是微軟開發的boosting集成模型,和XGBoost一樣是對GBDT的優(you) 化和高效實現,原理有一些相似之處,但和XGBoost相比,擁有更快的訓練效率、更低的低內(nei) 存使用、更高的準確率、支持並行化學習(xi) 、可處理大規模數據、支持直接使用category特征等優(you) 點。

MLP+Embedding

神經網絡算法在數據科學模型中有時候會(hui) 有讓人眼前一亮的表現。神經網絡模型的主要特點是不能有缺失值,缺失值在入模之前需要提前填充。MLP+Embedding是最常用的解決(jue) 數據科學競賽問題的框架。MLP(Multi-Layer Perceptron),即多層感知器,是一種趨向結構的人工神經網絡,映射一組輸入向量到一組輸出向量。Embedding是處理離散型變量的重要模塊,它可以避免因為(wei) 使用one-hot導致稀疏矩陣過於(yu) 龐大,浪費資源。

Tabnet

由於(yu) 對於(yu) 某些任務,NN模型(Neural Network Model)的表現隻能算差強人意,而我們(men) 又需要有NN模型參與(yu) 最後的模型ensemble,機智的研究者們(men) 為(wei) 此設計出了類似樹模型的NN模型——TabNet,它在保留DNN的end-to-end和representation learning特點的基礎上,還擁有了樹模型的可解釋性和稀疏特征選擇的優(you) 點,這使得它在具備DNN優(you) 點的同時,在表格數據任務上也可以和目前主流的樹模型相媲美。

Transformer

Transformer模型在處理時序數據上具有不錯的效果。Transformer出自於(yu) Google於(yu) 2017年發表的論文《Attention is all you need》,最開始是用於(yu) 機器翻譯,並且取得了非常好的效果。但是自提出以來,Transformer不僅(jin) 僅(jin) 在NLP領域大放異彩,並且在CV、RS等領域也取得了非常不錯的表現。尤其是2020年,絕對稱得上是Transformer的元年,比如在CV領域,基於(yu) Transformer的模型橫掃各大榜單,完爆基於(yu) CNN的模型。然而他在處理時序問題的時候,通過encoder和decoder,也會(hui) 有比較驚人的表現。

Kaggle競賽銀牌實用技巧

3 模型融合

Kaggle前排方案肯定不是單一模型,都會(hui) 通過多個(ge) 模型去做融合。模型融合雖然在絕對值上可能隻提高了千分之一的水平,但是卻可以極大的提高比賽的名次。下圖列出了幾種常用的模型融合方法,可以供大家參考。

Kaggle競賽銀牌實用技巧

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

2022年沒有SAT成績可以申請Tufts塔夫茨大學嗎?

下一篇

哈佛大學學生訪談內容分享:疫情期我居然被錄取了!

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部