日前,Kaggle發布了American Express - Default Prediction 信用違約預測大賽。
要求參賽者:運用機器學習(xi) 技能來預測信用違約
這是一個(ge) 金融風控場景下的結構化數據挖掘任務,對本領域感興(xing) 趣的小夥(huo) 伴,千萬(wan) 不要錯過。
下麵是本場比賽的baseline。
01PART賽題分析+baseline
1、賽題鏈接
https://www.kaggle.com/competitions/amex-default-prediction
2、賽題描述
信用違約預測是管理消費貸款業(ye) 務風險的核心。信用違約預測允許貸方優(you) 化貸款決(jue) 策,從(cong) 而帶來更好的客戶體(ti) 驗和穩健的商業(ye) 經濟。當前的模型可以幫助管理風險。但是有可能創建更好的模型,這些模型的性能優(you) 於(yu) 當前使用的模型。美國運通是一家全球綜合支付公司。作為(wei) 世界上最大的支付卡發行商,他們(men) 為(wei) 客戶提供豐(feng) 富生活和建立商業(ye) 成功的產(chan) 品、見解和體(ti) 驗。
在本次比賽中,您將運用機器學習(xi) 技能來預測信用違約。具體(ti) 來說,您將利用工業(ye) 規模的數據集來構建機器學習(xi) 模型,以挑戰生產(chan) 中的當前模型。訓練、驗證和測試數據集包括時間序列行為(wei) 數據和匿名客戶檔案信息。您可以自由探索任何技術來創建最強大的模型,從(cong) 創建特征到在模型中以更有機的方式使用數據。
3、評價(jia) 指標
本次比賽的評估指標 ? 是排名排序的兩(liang) 個(ge) 度量的平均值:歸一化基尼係數 ? 和 4% 的違約率 ?組成:
對於(yu) 子指標 ? 和 ?,負標簽的權重為(wei) 20 以調整下采樣。計算過程可以從(cong) 這裏找到
https://www.kaggle.com/code/inversion/amex-competition-metric-python
4、數據介紹
本次比賽的目的是根據客戶每月的客戶資料預測客戶未來不償(chang) 還信用卡餘(yu) 額的概率。目標二元變量是通過觀察最近一次信用卡賬單後 18 個(ge) 月的績效窗口來計算的,如果客戶在最近一次賬單日後的 120 天內(nei) 未支付到期金額,則將其視為(wei) 違約事件。
該數據集包含每個(ge) 客戶在每個(ge) 報表日期的匯總配置文件特征。特征通過了匿名和歸一化處理,特征可以分為(wei) 以下類別:
D_* = 拖欠變量
S_* = 支出變量
P_* = 付款變量
B_* = 平衡變量
R_* = 風險變量
其中這些變量為(wei) 類別變量:
['B_30', 'B_38', 'D_114', 'D_116', 'D_117', 'D_120', 'D_126', 'D_63', 'D_64', 'D_66', 'D_68']
是為(wei) 每個(ge) customer_ID預測未來付款違約的概率(目標 = 1),每個(ge) 文件內(nei) 容的介紹如下:
train_data.csv - 每個(ge) customer_ID 具有多個(ge) 日期的訓練數據
train_labels.csv - 每個(ge) customer_ID 的目標標簽
test_data.csv - 對應的測試數據;您的目標是預測每個(ge) customer_ID 的目標標簽
sample_submission.csv - 格式正確的示例提交文件
數據分析
首先我們(men) 來查看下數據集,在數據集中的數據字段基本進行了匿名處理:
在數據集中也有較多的字段包含了缺失值:
比賽標簽分布中違約用戶占比較少,類別分布比較均衡:
接下來我們(men) 可以查看字段按照分類之後的統計,如下圖所示:
進一步我們(men) 也可以統計字段與(yu) 標簽的相關(guan) 性:
解題要點
數據壓縮方法
由於(yu) 數據集原始數據集文件較大(50GB左右),直接進行讀取並進行分析並不可取。在進行送入模型進行之前可以考慮對數據值進行壓縮,具體(ti) 的壓縮方法包括:
將數據集中的類別字段,使用Pandas的category進行代替;
將數據集中的數值字段,使用flaoat16和float32代替原始的float64;
將數據集使用feather或者parquet格式進行存儲(chu) ;
通過上述方法可以將數據集壓縮到總共5GB左右,接下來就可以嚐試後續的建模過程。
數據集壓縮和轉換的過程可以參考:
https://www.kaggle.com/code/abdellatifsassioui/create-pickeld-data-from-50-gb-to-6gb
樹模型模型
本次賽題是一個(ge) 典型的匿名結構化比賽,因此可以考慮直接使用樹模型來進行建模,具體(ti) 的步驟為(wei) :
•對數據集進行處理
•定義(yi) 樹模型進行訓練
•五折交叉完成預測
上分路線
本次比賽是一個(ge) 典型的匿名結構化比賽,因此主要的關(guan) 注點可以放在模型結構和模型集成。
• 可以優(you) 先調整每額每個(ge) 模型,樹模型和深度學習(xi) 模型都可以取得0.796左右的精度;
• 增加每個(ge) 模型的隨機性,大量使用bagging進行訓練;
評論已經被關(guan) 閉。