Chapter 09 處理—資料分析

一、常用的數據分析工具—Python、R、SPSS

行銷人和商管人過去在進行資料（數據）分析時，經常會使用MS Excel、SPSS或者是SAS等套裝軟體。因此，讀過商研、心理或社會學等研究所的學生對這些軟體都不會太陌生。但是，現在隨著R和Python電腦語言的崛起，加上其免費、後續衍生的套件功能強大、可處理資料容量也讓SPSS等軟體難以望其項背。因此，許多研究生和商管人已有逐漸改用R、Python的趨勢。

過去，由於商管研究所學生要畢業之前，大都規定要寫一本論文，因此做量化問卷和用SPSS跑統計是很稀鬆平常的事。而在寫論文之前，就會聽到很多學長姐或同學一直在詢問，哪裡可以找到SPSS軟體。

SPSS套裝軟體的好處是，它很容易於操作與學習，但必須要付費。R和Python語言的最大好處是「免費」，而且有龐大的社群在背後支持，加上不斷地開發出新的套件，供使用者使用。

不過，這些套裝軟體或是程式語言，都有優缺點與其適用性，在進行資料分析的學習與實作時，可以根據自己的需求與條件，選擇適合的套裝軟體或是程式語言來學習。

以下，簡單就SPSS、R和Python進行比較，如圖1所示。

圖1. SPSS、R、Python

1.SPSS

SPSS是IBM旗下的一套統計分析軟體。它的歷史悠久，最早的版本是於1968年提出。本書作者在學校做研究時，大都使用SPSS來進行。SPSS的售價並不便宜，大約十萬元起跳，如果需要用到其他進階功能，還需加購其它進階模組。

至於在資料量的處理上，相對於Python與R，SPSS處理的資料量相對較小（當然，處理能力還牽涉到電腦效能）。在資料分析上，SPSS適合進行統計分析與資料探勘，但繪圖功能對於Python與R要來的弱。

總之，SPSS是一套相當好上手的套裝軟體，也廣受許多大研究機構、學校、企業所使用。

2. R語言

R語言是由紐西蘭奧克蘭大學的羅斯·伊哈卡（George Ross Ihaka）和羅伯特·傑特曼（Robert Clifford Gentleman）於1993年所開發。R語言是一套免費的程式語言，而且背後有廣大的社群不斷地在研發新的套件。在資料量的處理上，R語言適合處理較大的資料量（相對於SPSS，如果資料量更大，就適合用Python）。

在進行資料分析時，R適合進行統計分析與資料探勘，而且R的繪圖功能非常強大，能呈現出良好的資料視覺化。目前幾乎所有統計系的學生，都被要求學習R。

3.Python

Python是由荷蘭程式設計師吉多·范‧羅蘇姆（Guido van Rossum）於1991年所提出。它與R一樣，是一套免費的軟體，而且背後有龐大的研發社群進行支援。

在資料量上，Python適合處理大資料與小資料。Python除了適合進行數據分析，Python還適合連結網頁後端，並與各大應用框架進行串接。這樣強大的延展性的功能，已經讓資料科學家跳脫數據分析的範疇，而進入到資料產品服務的研發設計上。

二、行銷資料科學的學習層次

行銷資料科學是「行銷」與「資料科學」跨領域結合，也是商管領域的新顯學。尤其資料科學家更曾被形容作「21世紀最迷人的職業」，不少剛剛接觸「行銷資料科學」的學生，都跑來詢問該如何入行。對曾經修習過「行銷管理學」的學生來說，我們給予的建議是，大家可以先從強化「數理統計能力」以及「程式能力」著手。

我們先以圖2為例，來說明行銷資料科學的學習層次。

圖2. 行銷資料科學學習層次

如果以程式設計能力和數理統計能力，兩種基本能力為縱橫座標軸，由圖1中可發現，橫軸的X是「數理統計能力」，所需知識從最基礎的統計學、到多變量分析、機器學習，再到深度學習。縱軸的Y是「程式設計能力」，則由不須寫程式的Excel，到專業統計分析軟體SPSS的操作，再到SAS、R、Python程式（與資料科學、AI相關的程式語言當然不只R與Python，本文只集中介紹這兩種）。

在這兩種能力所形成的場域下，圖1裡左下角的區域是「調查研究」，所需的數理統計能力與程式設計能力最低。事實上，這樣的程度已經能夠滿足眾多行銷實務上的需求。舉例來說，無論是顧客滿意度調查，或是新產品測試，擁有數理統計的基礎，以及熟悉Excel軟體，就能協助企業完成這類型的調查研究報告。

圖1裡中間的部分是「數據分析」，這部分所需的數理能力與程式設計能力已經要有一定的程度。在數理統計上，則要熟悉多變量分析與一些機器學習。程式設計部分則可使用SPSS、SAS，或是要有一定程度R或Python的基礎。舉例來說，當企業想建置顧客忠誠度模型，或是發展精準行銷方案，就需要擁有這些編寫程式的技巧與能力。

至於圖1中右上角「AI」的部分，則要擁有機器學習與深度學習的知識，並且對Python非常熟悉。對於企業來說，發展AI行銷系統，例如智慧客服機器人，就高度需要擁有這個層次的能力。

最後，要學好「行銷資料科學」，除了要有「數理統計能力」與「程式設計能力」外，還需要「行銷管理」的理論知識與實務經驗。因為橫跨和縱跨的「步幅」不小，這也是為何「行銷資料科學」相關人才如此稀缺的原因。

三、多變量統計模式

在統計學中，研究「單一變數」或是同時研究兩個變數之間的關係，是最初階的分析方法，而如果同時研究兩個以上的變數（通常是一個自變數，以及兩個或兩個以上的依變數）就是俗稱的多變量統計。

舉例來說，在現實環境中，我們所關心的某種現象，往往不只跟一個變數有關。像是影響5G手機銷售績效的變數，不只是手機本身的功能屬性而已，可能還與電信公司的搭配策略、基地台建置數量、顧客可支配所得等因素具有密切關係，因此多變量分析應該對實際的行銷研究工作，較有幫助。

根據周文賢教授在《多變量統計分析》一書中的歸納，多變量統計分析架構如圖3所示。

圖3. 多變量統計模式歸類

資料來源：周文賢，多變量統計分析SAS/STAT使用方法，智勝文化

周文賢教授將多變量統計分成三大類：函數關係模式(Functional Relation Model)、相依關係模式(Interdependence Relation Model)、系統關係模式(System Relation Model)。

其中，函數關係模式又依反應變量的不同，區分為「分析性反應變量統計模式」與「分類性反應變量統計模式」。

分析性反應變量統計模式，包括迴歸分析(Regression Analysis)、單因子變異數分析(1-Way ANOVA)、雙因子變異數分析(2-Way ANOVA)、單因子共變數分析(1-Way ANCOVA)、單因子多變量變異數分析(1-Way MANOVA)、一般線性模式(GLM，General Linear Model)等六種。至於分類性反應變量統計模式則包括：鑑別分析(Discriminate Analysis)、類別資料分析(Categorical Data Analysis)等兩種。

相依關係模式則依構面減縮對象的不同，分成「變數相依關係統計模式」與「個案相依關係統計模式」。

其中，變數相依關統計模式包括：主成份分析(Principal Component Analysis)、正典相關分析(CANCORR, CANonical CORRelation Analysis)、因素分析(Factor Analysis)等。另外，個案相依關係統計模式則有，集群分析(Cluster Analysis)和多元尺度分析(Multidimensional Scaling Analysis)等。

至於系統關係模式，主要在探討變數之間是否存在因果關係，內容包括遞歸系統的路徑分析(Path Analysis)，以及聯立系統的線性結構關係模式(LISREL, Linear Structure Relation)。

有人形容，消費者的行為有時像是一團「迷霧」，藉由統計分析，讓行銷人得以抽絲剝繭，可以逐步釐清其中的關係。有別於傳統統計方法所注重的「參數估計」和「假設檢定」。多變量分析主要透過分析擁有多個變數的資料，同時探討變數和變數彼此之間的關聯性，或者用以釐清資料的結構。

舉例來說，在系統關係模式中的「路徑分析」主要在於探析變數間的因果關係(causal relationship)，通常以兩變數之相關係數來衡量其相關程度，但相關係數並無法說明變數間的因果關係。例如：研究者懷疑貧民窟的居民收入與犯罪率之間有正相關，然而在未做路徑分析之前，就不能斷言居民收入是犯罪率高的原因。「多變量統計模式」無論是在社會學或是行銷研究裡，都是一項非常重要的統計工具，值得每位行銷研究者好好學習。

四、區別分析、因素分析、集群分析

在行銷研究中，行銷人經常為了要區辨出特定消費者的類型，為了解析某些事件的原因，以及將某些物品分門別類，因此會大量用到「多變量分析」中的區別分析、因素分析和集群分析，以下簡單進行說明。

(一) 區別分析（Discriminant Analysis）

在發展行銷企劃時，企業常常需要將顧客進行「區別」，區分出誰是對公司忠誠較高的常客？誰是忠誠度較低的非常客？或者誰是對公司貢獻度較大的貴客？要找到這些不同類型的顧客，可透過區別分析（Discriminant Analysis）來完成。

區別分析的目的，乃是根據一組自變數上的測量值，將個體或個人分類至互斥的不同組別當中。實務上，它就是在探討單一分類性變數（如忠誠或非忠誠），對N個解釋變數（影響忠誠度與否的許多原因）之統計分析模式。也就是說，區別分析能將每位顧客，分類成忠誠顧客或非忠誠顧客，如圖4所示。

圖4. 區別分析

區別分析的依變數為類別變數（categorical variable），而自變數為連續變數。區別分析適用的情形，主要是依變數的每一個類別都經過清楚和明確的定義，每個受試者或個體屬於其中之一，且事前就已明確了解。因此，區別分析就是以此依變數作為分類或分組的基準，並根據個體在一組自變數上的得分組合方式（稱為區別函數（discriminant function），以達成將個體分派到已知組別的目的。

換句話說，依變數中的每個類別（如忠誠或非忠誠）都被清楚定義，裡面的個體屬於哪個類別也很清楚（亦即哪位顧客是忠誠顧客，或非忠誠顧客能明確區分）。區別分析的目的，在於找出有解釋力的變數以及進行預測，這一點與迴歸分析相當類似。同時，依照解釋量的大小，行銷研究人員可以決定要選取多少個區別函數，作為分組或分類的標準。

再進一步看，區別分析在行銷實務上的應用，也可將消費者分成已購買或未購買，並根據產品屬性、消費者偏好、消費者人口統計變數…等，發展出「預測模型」。行銷人員即可透過模型，找出可能購買者的條件，進而發展相關行銷計畫，來接觸與滿足這群消費者。

最後，區別分析除了可以找出資料庫裡忠誠顧客和非忠誠顧客之間的差異，也可以發掘出市場上潛在購買者的樣貌，甚或是分析出會購買競爭者產品的消費者是誰，進而與自己的消費者進行比較。

區別分析在行銷研究中被廣泛地使用，尤其是對於了解用戶和非用戶之間的差異，以及識別出用戶的某些特質等方面特別有效。

(二) 因素分析（Factor Analysis）

行銷人和學界在製作和收回消費者填答行銷研究的問卷時，對於動輒數十題的題項，往往會產生一種困擾，認為究竟有沒有一種方式，可以用比較少的構面（或稱變數）來代表這些眾多的題項，因為題項太多，最終反而容易讓解答太過發散。

事實上，因素分析（Factor Analysis）就是解決這類問題的一種工具。

因素分析法是由英國心理學家查爾斯‧斯皮爾曼（Charles Spearman）於1904年所發明，他並將此技術應用於智力相關的研究。因素分析可以抽離出各變數背後存在的共同概念（亦稱「共同因素（common factor）」）。因素分析能從N個可觀察的變數中，萃取出M個不可觀察的潛在因素的統計方法，其中M<N。

斯皮爾曼之所以會有這樣的想法，在於他發現到學生的各科成績之間，往往存在著一定的相關性。因為其中一科（例如數學）成績好的學生，往往其他各科成績（物理、化學）也比較好，從而推想是否存在著某些潛在的共同因素，或者一般智力條件也會影響學生的學習成績。而因素分析可在許多變數中找出隱藏、且具有代表性的因素，將本質相同的變數歸類成一個因素，藉此減少變數的數量。因素分析的概念圖如圖5所示。

圖5. 因素分析

因素分析在行銷管理上的應用非常多元。舉例來說：行銷研究人員透過文獻探討與進行專家訪談，發展出數十題網路行銷市場區隔的量表，接著，再根據問卷調查結果，找出背後具有代表性的關鍵因素，以作為企業在發展網路行銷市場區隔策略時的參考。

(三) 集群分析（Cluster Analysis）

有一句俗話說「物以類聚」，但是在行銷資料的世界裡，如果沒有人為的處理，性質相同的資料還是不會類聚。我們總要把類似的資料儘量排在一起，才能找到共有的特徵，而「集群分析」正是一種精簡資料的方法，依據樣本之間的共同屬性，將比較相似的樣本聚集在一起，形成集群(cluster)。

從視覺化的觀點來看，如果每一筆資料在縱橫座標軸上，是一個點。那麼通常以距離作為分類的依據，相對距離愈近，相似程度愈高，資料分群之後可以使得群組內差異小、群組間差異變大。

換句話說，集群分析（Cluster Analysis）的目標，是將樣本分為不同的數個組，以使各組內的同質性最大化，以及各組之間的異質性最大化。而這樣的概念，其實與市場區隔裡的「組內同質、組間異質」，不是很類似嗎？學者邁爾斯（Myers）與陶伯（Tauber）就發現[1]，在市場區隔技術方面，集群分析會優於因素分析。

集群分析能將N個樣本，集結成M個群體的統計方法，其中M<=N。

如果所有樣本最後被分為一組，代表這一組裡的成員彼此相對不可區分。

目前，集群分析技術主要有兩大類：階層式分群（Hierarchical Clustering）和切割式分群（Partitional Clustering）。

階層式分群（Hierarchical Clustering）不用指定分群數量，演算法會直接根據樣本資料之間的距離，將距離最近的集結在一群，直到所有樣本都併入到同一個集群之中。階層式分群的結果，可透過樹狀圖來呈現，如圖6所示。

[1] Myers, J.H. and Tauber, E., Market Structure Analysis, Chicago, American Marketing Association, 1977, pp. 68–90.