Kaggle American Express - Default Prediction 信用違約預測大賽說明

2022-06-30 5385 預計閱讀需要5分鍾

日前，Kaggle發布了American Express - Default Prediction 信用違約預測大賽。

要求參賽者：運用機器學習(xi) 技能來預測信用違約

這是一個(ge) 金融風控場景下的結構化數據挖掘任務，對本領域感興(xing) 趣的小夥(huo) 伴，千萬(wan) 不要錯過。

下麵是本場比賽的baseline。

01PART賽題分析+baseline

1、賽題鏈接

https://www.kaggle.com/competitions/amex-default-prediction

2、賽題描述

信用違約預測是管理消費貸款業(ye) 務風險的核心。信用違約預測允許貸方優(you) 化貸款決(jue) 策，從(cong) 而帶來更好的客戶體(ti) 驗和穩健的商業(ye) 經濟。當前的模型可以幫助管理風險。但是有可能創建更好的模型，這些模型的性能優(you) 於(yu) 當前使用的模型。美國運通是一家全球綜合支付公司。作為(wei) 世界上最大的支付卡發行商，他們(men) 為(wei) 客戶提供豐(feng) 富生活和建立商業(ye) 成功的產(chan) 品、見解和體(ti) 驗。

在本次比賽中，您將運用機器學習(xi) 技能來預測信用違約。具體(ti) 來說，您將利用工業(ye) 規模的數據集來構建機器學習(xi) 模型，以挑戰生產(chan) 中的當前模型。訓練、驗證和測試數據集包括時間序列行為(wei) 數據和匿名客戶檔案信息。您可以自由探索任何技術來創建最強大的模型，從(cong) 創建特征到在模型中以更有機的方式使用數據。

3、評價(jia) 指標

本次比賽的評估指標 ? 是排名排序的兩(liang) 個(ge) 度量的平均值：歸一化基尼係數 ? 和 4% 的違約率 ?組成：【baseline】Kaggle新賽！信用違約預測大賽

對於(yu) 子指標 ? 和 ?，負標簽的權重為(wei) 20 以調整下采樣。計算過程可以從(cong) 這裏找到

https://www.kaggle.com/code/inversion/amex-competition-metric-python

4、數據介紹

本次比賽的目的是根據客戶每月的客戶資料預測客戶未來不償(chang) 還信用卡餘(yu) 額的概率。目標二元變量是通過觀察最近一次信用卡賬單後 18 個(ge) 月的績效窗口來計算的，如果客戶在最近一次賬單日後的 120 天內(nei) 未支付到期金額，則將其視為(wei) 違約事件。

該數據集包含每個(ge) 客戶在每個(ge) 報表日期的匯總配置文件特征。特征通過了匿名和歸一化處理，特征可以分為(wei) 以下類別：

D_* = 拖欠變量
S_* = 支出變量
P_* = 付款變量
B_* = 平衡變量
R_* = 風險變量

其中這些變量為(wei) 類別變量：

['B_30', 'B_38', 'D_114', 'D_116', 'D_117', 'D_120', 'D_126', 'D_63', 'D_64', 'D_66', 'D_68']

是為(wei) 每個(ge) customer_ID預測未來付款違約的概率（目標 = 1），每個(ge) 文件內(nei) 容的介紹如下：

train_data.csv - 每個(ge) customer_ID 具有多個(ge) 日期的訓練數據

train_labels.csv - 每個(ge) customer_ID 的目標標簽

test_data.csv - 對應的測試數據；您的目標是預測每個(ge) customer_ID 的目標標簽

sample_submission.csv - 格式正確的示例提交文件

數據分析

首先我們(men) 來查看下數據集，在數據集中的數據字段基本進行了匿名處理：

【baseline】Kaggle新賽！信用違約預測大賽

在數據集中也有較多的字段包含了缺失值：

【baseline】Kaggle新賽！信用違約預測大賽

比賽標簽分布中違約用戶占比較少，類別分布比較均衡：

【baseline】Kaggle新賽！信用違約預測大賽

接下來我們(men) 可以查看字段按照分類之後的統計，如下圖所示：

【baseline】Kaggle新賽！信用違約預測大賽

進一步我們(men) 也可以統計字段與(yu) 標簽的相關(guan) 性：

【baseline】Kaggle新賽！信用違約預測大賽

解題要點

數據壓縮方法

由於(yu) 數據集原始數據集文件較大（50GB左右），直接進行讀取並進行分析並不可取。在進行送入模型進行之前可以考慮對數據值進行壓縮，具體(ti) 的壓縮方法包括：

將數據集中的類別字段，使用Pandas的category進行代替；

將數據集中的數值字段，使用flaoat16和float32代替原始的float64；

將數據集使用feather或者parquet格式進行存儲(chu) ；

通過上述方法可以將數據集壓縮到總共5GB左右，接下來就可以嚐試後續的建模過程。

數據集壓縮和轉換的過程可以參考：

https://www.kaggle.com/code/abdellatifsassioui/create-pickeld-data-from-50-gb-to-6gb

樹模型模型

本次賽題是一個(ge) 典型的匿名結構化比賽，因此可以考慮直接使用樹模型來進行建模，具體(ti) 的步驟為(wei) ：

•對數據集進行處理

•定義(yi) 樹模型進行訓練

•五折交叉完成預測

上分路線

本次比賽是一個(ge) 典型的匿名結構化比賽，因此主要的關(guan) 注點可以放在模型結構和模型集成。

• 可以優(you) 先調整每額每個(ge) 模型，樹模型和深度學習(xi) 模型都可以取得0.796左右的精度；

• 增加每個(ge) 模型的隨機性，大量使用bagging進行訓練；

【競賽報名/項目谘詢+微信：mollywei007】

本文由 Molly 轉載發布在伟德的官网平台，版權歸原作者所有，如有侵權，請直接聯係微信進行處理。

評論已經被關(guan) 閉。

插入圖片

返回頂部