當銀行「信用卡發放」遇到機器學習!? 
- 更精準快速的申辦與檢核過程!(附Python程式碼)

情境

根據金管會銀行局統計,截至民國110年6月為止,台灣市面上的信用卡流通數量約有5仟1佰萬張,而整體信用卡市場累計的刷卡金額更突破兆元大關,為1.22兆新台幣,其平均年增率則為7.02%。由以上統計資料可得知信用卡市場為一個成長中的市場。而信用卡也在近年來由於科技的進步與疫情催化下邁向數位化,讓民眾使用信用卡時更加省時與便利。

對於民眾來說,現今金融業界的服務機構眾多,信用卡種類多元,應該「如何選擇適合自己的信用卡」、「是否符合信用卡申辦條件」是銀行客戶常常面臨的問題。而另一方面,對於金融機構來說,「如何保留現有客戶」和「如何開發潛在客戶」亦是重要的課題(如圖一所示)。而過往信用卡的審核方式多是採取人工審核,不僅費力費時,對於客戶與銀行雙方而言也較無效率。

圖一. 客戶&銀行立場示意圖

綜合以上所述以及數位轉型浪潮下,若能學習機器學習技術並靈活運用,除了能幫助民眾快速了解自己是否符合該信用卡的申請條件,也可以幫助銀行快速地進行核卡流程節省其人力和時間成本,並利用資料分析進一步瞭解申辦此信用卡的客戶輪廓(如圖二所示)

圖二.任務與目標

資料說明

此資料集來自《Econometric Analysis》這本書,是一個申辦信用卡客戶資料虛擬資料集。此資料集如如表一所示所示擁有 12 個欄位,且總共有 1,319 筆資料。

表一.原始資料集

在表二中, Card 欄位便是我們此次研究的目標變數,他是一個二元變數欄位,之後可以代換成數值資料,以「1」 代表信用卡申辦成功,以「0 」代表信用卡申辦失敗。

表二.資料集欄位說明

研究流程與說明

圖三.研究流程

圖三是此次研究流程,進行信用卡申辦狀況的分析與預測。

1.信用卡申辦狀況分析

a . 目前申辦客戶的年齡、收入、信用、居住、工作狀況等

b . 進一步查看與「信用卡是否申辦成功」的關聯性

2. 信用卡申辦狀況預測

a. 具有特定特徵的客戶信用卡核准率高來篩選相關特徵

b. 挑選適當模型進行預測

細部資料一覽

在電腦科學領域中有一句耳熟能詳的句子:「Garbage in, garbage out.」,意味著資料前處理的重要性,也可以參考我們過往的文章「盡信資料,不如無資料」來瞭解更多。在實務中,資料可能會有缺失值、極端值和雜訊(Noise)等等,應先將原始資料處理過後再進行分析和建模,才能確保機器學習的輸入與輸出皆是適當的資料。因此在進行資料分析與建立預測模型之前,我們必須先進行「資料前處理」。

本文章資料與程式碼可見本處

1.匯入套件

首先先在Python IDE匯入資料處理套件,numpy和pandas。(如圖四所示)

圖四.匯入套件

2. 匯入資料集(如圖五所示)

圖五.匯入資料集

3. 查看各欄位類型

我們可以發現這個資料集的欄位,包含了4個浮點數欄位(float64)、5個整數欄位(int64)以及3個類別型資料欄位(object)。而在機器學習實作中,一般建立模型前須先將類別型資料進行轉換,轉換成數值型的資料,才能順利建立機器學習模型(如圖六所示)

圖六.查看各欄位類型

4. 查看缺失值

若資料集中存在缺失值,需進行填補以利後續資料分析和建立模型。(如圖七所示)

圖七.查看缺失值

幸運的是,本次資料集未有缺失值,因此不需進行填補的資料處理。

所以接下來呢?

本次我們瞭解了信用卡申辦概況與所使用之資料集。在下一篇,我們即將以「視覺化」的方式來揭曉信用卡申辦的基本資料分析,讓大家能更清楚了解業內信用卡申辦通過與否的重點因素!

如果看完覺得喜歡,不妨拍個手給予肯定吧 🙂

作者:Anna Wu(臺灣行銷研究特邀作者)、鍾皓軒(臺灣行銷研究創辦人)

更多實戰案例及情境好文推薦

回到頂端