當金融業的「信用卡發放」遇到機器學習!?
敘述性統計&探索性資料分析(附Python程式碼)

回顧系列1 — 
當金融業的「信用卡發放」遇到機器學習!? — 情境介紹與研究流程(附Python程式碼),請點擊此連結。
Image by StockSnap from Pixabay

前情回顧

經過上一次的情境說明和資料型態的介紹,本次將進入資料探索性分析,來了解各資料的分布和個欄位與目標變數(Card)的關係。

敘述性統計&探索性資料分析

接下來筆者將開始探討本資料集的敘述性統計和探索性資料分析。筆者先從目標欄位開始著手,並且與「人口變數」(舉例:年齡、年收入、房地產、創業人士、扶養人數、居住時間 、 主卡數量及活耀用戶數量)和「行為變數」(舉例 : 信用不良紀錄、信用卡每月平均消費金額、信用卡支出占比)進行交叉分析,以便了解哪些欄位會對目標欄位有直接的影響。

程式碼來源: 台灣行銷研究Github

1. 信用卡核准狀況 (Card)

上一篇文章中已經有介紹到信用卡核准狀況欄位為本次專案的目標欄位。如圖1所示,筆者發此資料集的核准辦卡人數是遠遠大於不核准的人數。

圖1. 信用卡核准比例

2. 年齡 (Age)

在年齡方面,筆者從圖2的數據得知大部分信用卡申辦者的年齡會落在25~35歲之間。

圖2. 年齡箱型圖&分布圖

為了讓年齡(Age)與目標欄位(Card)能夠從視覺化中看出更有意義的關係,筆者將年齡欄位(Age)與目標欄位(Card)經過交叉分析後,筆者從圖3得知越年輕的區間信用卡核卡數會越高,但是被拒絕發卡的次數也偏高。

圖3. 年齡欄位(Age)與目標欄位(Card)交叉分析長條圖

為了知道年齡(Age)跟核卡率是否有絕對的關係,筆者把各年齡區間的成功核卡率繪製成長條圖做比較,從圖4可以看出年齡與核准率並沒有呈現正向關係,所以由此筆者推斷年齡有較高的可能性不會是核卡通過的標準。

圖4. 年齡區間成功核卡率長條圖

3. 年收入 (Income)

在年收入方面,筆者從圖5的數據知曉大部分的信用卡申辦者的年收入會落在29K~33.6K之間。

圖5. 年收入相形圖&分布圖

為了讓年收入(Income)與目標欄位(Card)能夠從視覺化中看出更有意義的關係,筆者將年收入欄位(Income)與目標欄位(Card)經過交叉分析過後,筆者從圖6發現年收入介於29K~33.6K這個區間的核卡通過人數最高,但是拒絕核卡的人數也最高。

圖6. 年收入欄位(Income)與目標欄位(Card)交叉分析長條圖

筆者為了瞭解年收入(Income)跟核卡率是否有絕對的關係,筆者把各年收入區間的成功核卡率繪製成長條圖做比較,從圖7發現各年收入與核准率並沒有呈現正向關係,所以由此我們推斷年齡收入有很高的機率不會是核卡通過的標準。

圖7. 年收入區間成功核卡率長條圖

4. 是否擁有房地產 (Owner)

如圖8所示,申辦者是租屋族的比例大於申辦者有房地產的比例。

圖8. 房屋租贅比例

為了讓是否擁有房地產(Owner)欄位與目標欄位(Card)能夠從視覺化中看出更有意義的關係,筆者將是否擁有房地產(Owner)欄位與目標欄位(Card)經過交叉分析後,筆者從圖9發現擁有房地產的信用卡申辦者的核卡率為84%,而沒有房地產的信用卡申辦者的核卡率卻只有72%,由此筆者得知擁有房地產的信用卡申辦者核卡率較高。

圖9. 房地產成功核卡率長條圖

5. 創業人士 (Self Employed, Selfmp)

在創業人士方面,筆者從圖10知曉大部分的信用卡申辦者為公司顧員,只有少部分(6.9%)的信用卡申辦者為創業人士。

圖10. 創業人士和雇員人士申辦者比例

為了讓創業人士(Self Employed)欄位與目標欄位(Card)能夠從視覺化中看出更有意義的關係,筆者將創業人士(Self Employed)欄位與目標欄位(Card)經過交叉分析後,筆者從圖11發現創業人士申辦信用卡的信用卡核准率只有69%,而身分為雇員申辦者的核卡率會為78%,比創業人士申辦者的核卡率高出9%,由此我們可以得知雇員申辦者比較容易通過審核。

圖11. 創業人士成功核卡率長條圖

6. 扶養人數 (Dependents)

在扶養人數方面,筆者從圖12的數據得知大部分信用卡申辦者扶養人數約為1個人。

圖12. 扶養人數(Dependents)統計圖

為了讓扶養人數欄位(Dependents)與目標欄位(Card)能夠從視覺化中看出更有意義的關係,筆者將扶養人數欄位(Dependents)與目標欄位(Card)經過交叉分析後,筆者從圖13發現扶養人數的多寡,並沒有和核卡率呈現一個正向關係,由此筆者推斷扶養人數並有很高的機率不會是核卡通過的標準。

圖13. 扶養人數核卡率長條圖

7. 居住時間 (Year)

在居住時間方面,筆者從圖14的數據知曉大部分的信用卡申辦者都是在本地居住時間為5年以下。

圖14. 居住時間(Year)統計圖

為了讓居住時間欄位(Years)與目標欄位(Card)能夠從視覺化中看出更有意義的關係,筆者將居住時間欄位(Years)與目標欄位(Card)經過交叉分析後,筆者從圖15發現居住時間的長短,並沒有和核卡率呈現一個正向關係,由此筆者推斷居住時間可能不會是核卡通過的標準。

圖15. 居住時間核卡率長條圖

8. 主卡數量 (Majorcards)

在主卡數量方面,筆者從圖16中知道擁有一張以上信用卡的申辦者為多數。

圖16. 主卡數量圓餅圖
圖16. 主卡數量圓餅圖

為了讓主卡數量(Majorcards)欄位與目標欄位(Card)能夠從視覺化中看出更有意義的關係,筆者將主卡數量(Majorcards)欄位與目標欄位(Card)經過交叉分析後,筆者從圖17很清楚的得知擁有其他信用卡數量超過一張的信用卡申辦者(80%)比沒有其他信用卡申辦者(68%)的核卡率來的高,由此筆者得知擁有其他信用卡的申辦者通過申辦核卡的機率較高,所以主卡數量會是判斷申辦者能不能通過通過審核的標準之一。

圖17. 主卡數量核卡率長條圖

9. 活躍用戶帳戶數量 (Active)

在活躍用戶帳戶數量方面,筆者從圖18中知曉大部分的信用卡申辦者都擁有7個左右的銀行活躍帳戶。

圖 18. 活躍用戶帳戶數量(Active)

為了讓活躍用戶帳戶數量(Active)欄位與目標欄位(Card)能夠從視覺化中看出更有意義的關係,筆者將活躍用戶帳戶數量(Active)欄位與目標欄位(Card)經過交叉分析後,筆者從圖19發現活躍信用帳戶數量的多寡,並沒有和核卡率呈現一個正向關係,由此筆者可以推斷出活躍信用帳戶的數量有很低的機率會是核卡通過的標準。

圖19. 活躍信用卡帳戶數量核卡率長條圖

10. 信用不良紀錄 (Report)

在信用不良紀錄方面,筆者為了要知道通過申辦者與遭拒申辦者的信用不良紀錄是否有差別,筆者把信用不良紀錄(Reports)欄位做統計分析,從圖20可以知曉通過審核的申辦者中有910人有信用不良紀錄,107人沒有信用不良紀錄,由此筆者推斷就算申辦者有不良紀錄還是可以通過信用卡審核。

圖20. 通過核卡申辦者&信用記錄長條圖

在核卡遭拒方面,筆者從圖21中發現核卡遭拒的申辦者中有151人沒有信用不良紀錄,由此筆者推斷申辦者是否有信用不良紀錄都有機會通過申請。

圖21. 沒有通過核卡申辦者&信用記錄長條圖

為了讓信用不良紀錄(Reports)欄位與目標欄位(Card)能夠從視覺化中看出更有意義的關係,筆者將信用不良紀錄(Reports)欄位與目標欄位(Card)經過交叉分析後可以從圖22得知信用不良紀錄在4點以下的申辦者通過信用審核的機會比較高。

圖22. 信用不良紀錄核卡率長條圖

11. 信用卡每月平均消費金額 (Expenditure)

在信用卡每月平均消費金額方面,筆者從圖22得知信用卡申辦者使用信用卡的每月平均消費金額普遍落在110元到185元之間。

圖22. 消費支出箱型圖&分布圖

為了讓信用卡每月平均消費金額(Expenditure)欄位與目標欄位(Card)能夠從視覺化中看出更有意義的關係,筆者將信用卡每月平均消費金(Expenditure)欄位與目標欄位(Card)經過交叉分析後,筆者從圖23中得知信用卡消費金額小於 $5的信用卡申辦者核准率只有10.5%,由此筆者推斷出信用卡消費金額小於大於 $5的申辦者比較容易通過審核。

圖23. 消費支出核卡率長條圖

12. 信用卡支出占比 (Share)

由圖21顯示,筆者從圖24得知信用卡申辦者的信用卡支出占比落在3.88%~6.87%。

圖24. 信用卡支出占比統計圖

為了讓信用卡支出占比(Share)欄位與目標欄位(Card)能夠從視覺化中看出更有意義的關係,筆者將信用卡支出占比(Share)欄位與目標欄位(Card)經過交叉分析後,筆者從圖25中得知信用卡支出占比小於1%的申辦者,信用卡核准率只有28%,由此筆者可以推斷出信用卡消費支出占比大於 1的申辦者比較容易通過審核。

圖25. 信用支出占比核卡率長條圖

申辦者特徵

最後,我們大概歸納出會成功核准的信用卡申辦者特徵:

  1. 信用不良紀錄: 4點以下
  2. 年齡:青壯年族群
  3. 年收入: 33,000上下
  4. 信用卡消費金額: 大於5元
  5. 信用卡支出占比: 大於1%
  6. 是否擁有房地產: 有
  7. 是否非自顧人士: 否
  8. 扶養人數: 0~1人
  9. 居住時間: 1~5年
  10. 主卡數量: 擁有1張以上信用卡
  11. 活躍信用帳戶數量: 7個上下

所以這樣就結束了嗎?

從上述「敘述性統計」和「探索性資料分析」的圖表中,我們已經對辦卡者的一定的了解。不過在多數的業者心中早就對顧客的特徵有一定的掌握,也就是說,敘述性統計和探索性資料分析通常已經無法滿足現今資料導向決策的需求。

所以我們是否能更進一步,在辦卡者申辦時,及時預測是否核准,讓公司達到節省人力成本並且讓損失不要發生呢?

在下一篇,我們即將開始進入「建置模型」,讓機器自行學習好達到節省人力,讓大家能更清楚了解機器學習是如何到達到預測效果的!

如果看完覺得喜歡,不妨拍個手給予肯定吧 🙂

作者:陳義佳、吳英緩、洪翊鈞、楊佳淇(臺灣行銷研究特邀作者)、鍾皓軒(臺灣行銷研究創辦人)

第一篇連結: 當金融業的「信用卡發放」遇到機器學習!? — 情境介紹與研究流程 (系列1)

參考文獻
Kaggle Credit Card Data from book “Econometric Analysis”

更多實戰案例及情境好文推薦

回到頂端