當銀行「信用卡發放」遇到機器學習！？ — 更精準快速的申辦與檢核過程！（附Python程式碼）

情境

根據金管會銀行局統計，截至民國110年6月為止，台灣市面上的信用卡流通數量約有5仟1佰萬張，而整體信用卡市場累計的刷卡金額更突破兆元大關，為1.22兆新台幣，其平均年增率則為7.02%。由以上統計資料可得知信用卡市場為一個成長中的市場。而信用卡也在近年來由於科技的進步與疫情催化下邁向數位化，讓民眾使用信用卡時更加省時與便利。

對於民眾來說，現今金融業界的服務機構眾多，信用卡種類多元，應該「如何選擇適合自己的信用卡」、「是否符合信用卡申辦條件」是銀行客戶常常面臨的問題。而另一方面，對於金融機構來說，「如何保留現有客戶」和「如何開發潛在客戶」亦是重要的課題(如圖一所示)。而過往信用卡的審核方式多是採取人工審核，不僅費力費時，對於客戶與銀行雙方而言也較無效率。

綜合以上所述以及數位轉型浪潮下，若能學習機器學習技術並靈活運用，除了能幫助民眾快速了解自己是否符合該信用卡的申請條件，也可以幫助銀行快速地進行核卡流程，節省其人力和時間成本，並利用資料分析進一步瞭解申辦此信用卡的客戶輪廓。 (如圖二所示)

資料說明

此資料集來自《Econometric Analysis》這本書，是一個申辦信用卡客戶資料的虛擬資料集。此資料集如如表一所示所示擁有 12 個欄位，且總共有 1,319 筆資料。

在表二中， Card 欄位便是我們此次研究的目標變數，他是一個二元變數欄位，之後可以代換成數值資料，以「1」代表信用卡申辦成功，以「0 」代表信用卡申辦失敗。

研究流程與說明

圖三是此次研究流程，進行信用卡申辦狀況的分析與預測。

信用卡申辦狀況分析

a . 目前申辦客戶的年齡、收入、信用、居住、工作狀況等

b . 進一步查看與「信用卡是否申辦成功」的關聯性

2. 信用卡申辦狀況預測

a. 具有特定特徵的客戶信用卡核准率高來篩選相關特徵

b. 挑選適當模型進行預測

細部資料一覽

在電腦科學領域中有一句耳熟能詳的句子：「Garbage in, garbage out.」，意味著資料前處理的重要性，也可以參考我們過往的文章「盡信資料，不如無資料」來瞭解更多。在實務中，資料可能會有缺失值、極端值和雜訊(Noise)等等，應先將原始資料處理過後再進行分析和建模，才能確保機器學習的輸入與輸出皆是適當的資料。因此在進行資料分析與建立預測模型之前，我們必須先進行「資料前處理」。

本文章資料與程式碼可見本處。