Kaggle American Express - Default Prediction 信用違約預測大賽說明

日前,Kaggle發布了American Express - Default Prediction 信用違約預測大賽。

要求參賽者:運用機器學習(xi) 技能來預測信用違約

這是一個(ge) 金融風控場景下的結構化數據挖掘任務,對本領域感興(xing) 趣的小夥(huo) 伴,千萬(wan) 不要錯過。

下麵是本場比賽的baseline。

01PART賽題分析+baseline

1、賽題鏈接

https://www.kaggle.com/competitions/amex-default-prediction

2、賽題描述

信用違約預測是管理消費貸款業(ye) 務風險的核心。信用違約預測允許貸方優(you) 化貸款決(jue) 策,從(cong) 而帶來更好的客戶體(ti) 驗和穩健的商業(ye) 經濟。當前的模型可以幫助管理風險。但是有可能創建更好的模型,這些模型的性能優(you) 於(yu) 當前使用的模型。美國運通是一家全球綜合支付公司。作為(wei) 世界上最大的支付卡發行商,他們(men) 為(wei) 客戶提供豐(feng) 富生活和建立商業(ye) 成功的產(chan) 品、見解和體(ti) 驗。

在本次比賽中,您將運用機器學習(xi) 技能來預測信用違約。具體(ti) 來說,您將利用工業(ye) 規模的數據集來構建機器學習(xi) 模型,以挑戰生產(chan) 中的當前模型。訓練、驗證和測試數據集包括時間序列行為(wei) 數據和匿名客戶檔案信息。您可以自由探索任何技術來創建最強大的模型,從(cong) 創建特征到在模型中以更有機的方式使用數據。

3、評價(jia) 指標

本次比賽的評估指標 ? 是排名排序的兩(liang) 個(ge) 度量的平均值:歸一化基尼係數 ? 和 4% 的違約率 ?組成:【baseline】Kaggle新賽!信用違約預測大賽

對於(yu) 子指標 ? 和 ?,負標簽的權重為(wei) 20 以調整下采樣。計算過程可以從(cong) 這裏找到

https://www.kaggle.com/code/inversion/amex-competition-metric-python

4、數據介紹

本次比賽的目的是根據客戶每月的客戶資料預測客戶未來不償(chang) 還信用卡餘(yu) 額的概率。目標二元變量是通過觀察最近一次信用卡賬單後 18 個(ge) 月的績效窗口來計算的,如果客戶在最近一次賬單日後的 120 天內(nei) 未支付到期金額,則將其視為(wei) 違約事件。

該數據集包含每個(ge) 客戶在每個(ge) 報表日期的匯總配置文件特征。特征通過了匿名和歸一化處理,特征可以分為(wei) 以下類別:

D_* = 拖欠變量
S_* = 支出變量
P_* = 付款變量
B_* = 平衡變量
R_* = 風險變量

其中這些變量為(wei) 類別變量:

['B_30', 'B_38', 'D_114', 'D_116', 'D_117', 'D_120', 'D_126', 'D_63', 'D_64', 'D_66', 'D_68']

是為(wei) 每個(ge) customer_ID預測未來付款違約的概率(目標 = 1),每個(ge) 文件內(nei) 容的介紹如下:

train_data.csv - 每個(ge) customer_ID 具有多個(ge) 日期的訓練數據

train_labels.csv - 每個(ge) customer_ID 的目標標簽

test_data.csv - 對應的測試數據;您的目標是預測每個(ge) customer_ID 的目標標簽

sample_submission.csv - 格式正確的示例提交文件

數據分析

首先我們(men) 來查看下數據集,在數據集中的數據字段基本進行了匿名處理:

【baseline】Kaggle新賽!信用違約預測大賽

在數據集中也有較多的字段包含了缺失值:

【baseline】Kaggle新賽!信用違約預測大賽

比賽標簽分布中違約用戶占比較少,類別分布比較均衡:

【baseline】Kaggle新賽!信用違約預測大賽

接下來我們(men) 可以查看字段按照分類之後的統計,如下圖所示:

【baseline】Kaggle新賽!信用違約預測大賽

進一步我們(men) 也可以統計字段與(yu) 標簽的相關(guan) 性:

【baseline】Kaggle新賽!信用違約預測大賽

解題要點

數據壓縮方法

由於(yu) 數據集原始數據集文件較大(50GB左右),直接進行讀取並進行分析並不可取。在進行送入模型進行之前可以考慮對數據值進行壓縮,具體(ti) 的壓縮方法包括:

將數據集中的類別字段,使用Pandas的category進行代替;

將數據集中的數值字段,使用flaoat16和float32代替原始的float64;

將數據集使用feather或者parquet格式進行存儲(chu) ;

通過上述方法可以將數據集壓縮到總共5GB左右,接下來就可以嚐試後續的建模過程。

數據集壓縮和轉換的過程可以參考:

https://www.kaggle.com/code/abdellatifsassioui/create-pickeld-data-from-50-gb-to-6gb

樹模型模型

本次賽題是一個(ge) 典型的匿名結構化比賽,因此可以考慮直接使用樹模型來進行建模,具體(ti) 的步驟為(wei) :

•對數據集進行處理

•定義(yi) 樹模型進行訓練

•五折交叉完成預測

上分路線

本次比賽是一個(ge) 典型的匿名結構化比賽,因此主要的關(guan) 注點可以放在模型結構和模型集成。

• 可以優(you) 先調整每額每個(ge) 模型,樹模型和深度學習(xi) 模型都可以取得0.796左右的精度;

• 增加每個(ge) 模型的隨機性,大量使用bagging進行訓練;

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

2022年哈佛國際評論和馬歇爾論文備賽時間不足一月!快上車!

下一篇

三大考試局查分攻略提前預告!成績不滿意可以複議嗎?

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部