Kaggle是全世界數據科學愛好者的競技場,每個(ge) 月都會(hui) 有若幹項目開放出來,如果能通過競技拿到金牌或者銀牌,不僅(jin) 證明了自己數據挖掘能力已經到了一個(ge) 不錯的地步,也能帶來一定的成就感。更重要的是,kaggle競賽如果取得靠前的名次,對於(yu) 實習(xi) 、求職、留學申請都是很好的加分項。
那麽(me) ,新手如何快速進階kaggle比賽呢?
除了常規的python編程、基本的機器學習(xi) 知識以外,還有很多技巧和規律,下麵小編就來一一揭開。
1 特征工程
在kaggle競賽中,特征工程通常占據了數據科學家很大一部分的精力,一方麵是因為(wei) 特征工程能夠顯著提升模型性能,高質量的特征能夠大大簡化模型複雜度,讓模型變得高效且易理解、易維護。另一方麵對於(yu) 一個(ge) 機器學習(xi) 問題,數據和特征決(jue) 定了機器學習(xi) 的上限,而模型和算法隻是逼近這個(ge) 上限而已。
2 實用模型
Kaggle比賽中最常用的模型包括XGBoost、LightGBM、CatBoost、Tabnet、MLP和Transformer。熟練掌握這些模型,就已經具有了達到Kaggle Expert的能力,並且能夠快速解決(jue) 很多實際場景的問題,受益匪淺。
對於(yu) 數據挖掘問題,XGBoost、LightGBM、CatBoost三個(ge) 模型是必備,查看kaggle過往比賽中,獲獎模型基本有這三個(ge) 模型包攬,深度學模型雖然有很多優(you) 勢,但在數據挖掘問題上,樹模型的優(you) 勢顯然是不可替代的。
XGBoost
XGBoost是eXtreme Gradient Boosting的縮寫(xie) 稱呼,它是一個(ge) 非常強大的Boosting算法工具包,優(you) 秀的性能(效果與(yu) 速度)讓其在很長一段時間內(nei) 霸屏數據科學比賽解決(jue) 方案榜首,現在很多大廠的機器學習(xi) 方案依舊會(hui) 首選這個(ge) 模型。XGBoost在並行計算效率、缺失值處理、控製過擬合、預測泛化能力上都變現非常優(you) 秀。
LightGBM
LightGBM是微軟開發的boosting集成模型,和XGBoost一樣是對GBDT的優(you) 化和高效實現,原理有一些相似之處,但和XGBoost相比,擁有更快的訓練效率、更低的低內(nei) 存使用、更高的準確率、支持並行化學習(xi) 、可處理大規模數據、支持直接使用category特征等優(you) 點。
MLP+Embedding
神經網絡算法在數據科學模型中有時候會(hui) 有讓人眼前一亮的表現。神經網絡模型的主要特點是不能有缺失值,缺失值在入模之前需要提前填充。MLP+Embedding是最常用的解決(jue) 數據科學競賽問題的框架。MLP(Multi-Layer Perceptron),即多層感知器,是一種趨向結構的人工神經網絡,映射一組輸入向量到一組輸出向量。Embedding是處理離散型變量的重要模塊,它可以避免因為(wei) 使用one-hot導致稀疏矩陣過於(yu) 龐大,浪費資源。
Tabnet
由於(yu) 對於(yu) 某些任務,NN模型(Neural Network Model)的表現隻能算差強人意,而我們(men) 又需要有NN模型參與(yu) 最後的模型ensemble,機智的研究者們(men) 為(wei) 此設計出了類似樹模型的NN模型——TabNet,它在保留DNN的end-to-end和representation learning特點的基礎上,還擁有了樹模型的可解釋性和稀疏特征選擇的優(you) 點,這使得它在具備DNN優(you) 點的同時,在表格數據任務上也可以和目前主流的樹模型相媲美。
Transformer
Transformer模型在處理時序數據上具有不錯的效果。Transformer出自於(yu) Google於(yu) 2017年發表的論文《Attention is all you need》,最開始是用於(yu) 機器翻譯,並且取得了非常好的效果。但是自提出以來,Transformer不僅(jin) 僅(jin) 在NLP領域大放異彩,並且在CV、RS等領域也取得了非常不錯的表現。尤其是2020年,絕對稱得上是Transformer的元年,比如在CV領域,基於(yu) Transformer的模型橫掃各大榜單,完爆基於(yu) CNN的模型。然而他在處理時序問題的時候,通過encoder和decoder,也會(hui) 有比較驚人的表現。
3 模型融合
Kaggle前排方案肯定不是單一模型,都會(hui) 通過多個(ge) 模型去做融合。模型融合雖然在絕對值上可能隻提高了千分之一的水平,但是卻可以極大的提高比賽的名次。下圖列出了幾種常用的模型融合方法,可以供大家參考。
評論已經被關(guan) 閉。