企業如何更有效地取得網絡數據?

網路世代,許多企業藉由網路來取得各式各樣的消費者訊息,並廣泛的應用在市場經營,這也是大數據時代主要的經營方式。而企業該如何有效率、有效果地取得這些網路數據,則成為一項項重要的議題。

荷蘭伊拉斯姆斯大學(Erasmus University)鹿特丹管理學院行銷助理教授博格斯豪森(Boegershausen)等學者 [1],在2022年提出,企業可以透過選擇數據來源、設計數據搜集方式、與取得數據等三個步驟,來回應上述的議題(如圖1所示)。分述如下:

圖1 抓取網絡數據來洞察經營樣貌流程

資料來源:Boegershausen, Johannes, Hannes Datta, Abhishek Borah, and Andrew T. Stephen (2022), ” Fields of Gold: Scraping Web Data for Marketing Insights,” Journal of Marketing, 86 (5), 1–20.

1. 選擇數據來源(Source Selection):

網路資訊存在著很大的差異,不同的來源會有數據品質、數據提供穩定性、與是否容易檢索等差異。舉例來說,大家常用的數據搜集平台為Google、Facebook、IG、抖音等,這些平台的特性也有所不同。Google偏向搜尋,主要是提供使用者搜尋與點選的結果資料;Facebook與IG則為社群平台,大多數為使用者上傳的文字、照片及影片;抖音則為短視頻為主。

企業可以多加拓展數據來源,像是從消費者、競爭者、或是內部人員等。而現有的資料庫也是可參考的來源,包括:Google Trend 的相關搜索查詢、各種開放資料庫等。接著,企業可利用不同的數據搜集方式,增加數據來源,並了解這些數據對於企業經營的相關性與成效之影響。

2. 設計數據搜集方式(Collection Design):

此階段主要討論搜集數據的方式。首先,要先確認哪些數據是必須蒐集的?這裡要思考所選擇的數據是否足以衡量經營的問題?是否超過經營問題的範圍?同時避免數據偏誤,與找出數據產生過程的重大變化等。

在蒐集數據時,企業要思考更多的數據取得方式,像是:URL、點擊、登錄網站、搜集模式、搜集時間等。並在公司系統可負擔的前提下,思考數據更新的速度是否足夠?數據是否具有時效性?以更高頻率搜集更多的數據,是否會蒐集到更具價值性的數據?要回答這些問題,需要建立最佳的樣本量、與資訊存取的頻率。企業通常可透過多次的搜集與分析來進行動態調整,同時建立更完善的數據搜集與分析模式。

當在進行數據處理時,要小心是否會導致重要數據的遺失?需要使用哪些儲存設備來存放數據(需考慮數據量大小、位置、格式、編碼方式等)?企業最好能保留原始的數據,並在不同的時間點做到即時監控檢查。

在蒐集數據前,要確保是在合法的前提下進行數據蒐集。例如,為了取得客戶的同意,當客戶在瀏覽網站時,會被詢問是否同意網站搜集與分析客戶的數據。

3. 取得數據(Data Extraction):

此階段主要討論在進行數據搜集時,需要提升分析的效率、監控數據品質與紀錄等。

首先在提升分析效率方面,企業在抓取數據時,可利用標籤、屬性與特定的訊息關聯分析等方式來進行輔助,並隨時進行數據搜集的錯誤處理。

此外,企業要隨時監控數據品質與做好紀錄,因為監控是即時了解數據品質的關鍵。企業需要建立一個監控系統以及早發現錯誤的數據、或是分析方式,進而避免造成數據無用的問題。通常企業會利用監控工具來注意經營時的問題,像是文件數量、分析文件大小、搜集時間、花費的成本等,並自動產生經營的數據分析報告。

企業該如何有效率、有效果地取得網路數據,是一項重要的經營議題。以上三項步驟,可作為企業決策時的參考。

作者:陳苡任(台科大企管系博士)、羅凱揚(台科大企管系博士)
繪圖者:鍾淳育

[1] Boegershausen, Johannes, Hannes Datta, Abhishek Borah, and Andrew T. Stephen (2022), ” Fields of Gold: Scraping Web Data for Marketing Insights,” Journal of Marketing, 86 (5), 1–20.

更多商普好文推薦

演算法性能大躍進

演算法性能大躍進 電腦性能的快速進步,往往顯而易見,摩爾定律(Moore’s law)就是典型的代表。由英特爾(Intel)創始人之一葛登‧

閱讀更多 »
回到頂端