透過網絡數據洞察經營樣貌之挑戰
許多企業希望透過網路瞭解消費者需求,以便調整自己的經營模式。荷蘭伊拉斯姆斯大學鹿特丹管理學院的行銷助理教授博格斯豪森等學者,在2022年的《Journal of Marketing》行銷期刊上提出了利用網路數據來了解企業經營狀況的觀點。本文基於此觀點,結合實務經驗,歸納出抓取網路數據以了解經營狀況的十大挑戰,如下所示(參見圖1)。
挑戰1. 增加數據蒐集來源
由於網路上的資訊具有差異性,且經營者的技術能力有所限制,因此可能會導致經營者只使用自己熟悉的平台,進而影響數據分析的準確性。
為避免單一數據源所帶來的問題,建議可增加數據來源,例如收集消費者、競爭對手的資訊、公開資料庫等,同時設定更多數據搜集條件,以確保數據的多元性與充分性。
挑戰2. 增加搜集資訊數量
在數據搜集的過程中,經營者可能面臨著如何快速有效地擴大數據集的挑戰。
建議經營者可以透過擴展數據搜集的來源,例如使用更多的關鍵字或透過新的資訊搜集技術,以更新資訊搜集方式,或利用現有的數據集來擴充數據源的來源與量。
挑戰3. 確保數據足量分析
經營者常常希望能夠不斷擴增數據量,但他們往往難以確定數據量是否足夠,以有效地評估企業經營的問題,或者是否適用於分析經營問題。此外,經營者也可能不知道數據是否超出問題所需的範圍。
建議經營者可以評估不同的數據搜集模式,並持續透過檢驗來改進數據搜集模式的效果。此外,經營者可以利用外部訊息與現有數據進行比較,以確定最適合的數據量。
挑戰4. 蒐集完整數據內容
在數據搜集過程中,經營者可能僅蒐集片面的數據內容,缺乏完整的時間序列、文章內容或數據文件,影響分析的準確性和全面性。
為建構完整的內容架構,建議設定合理的搜集時間範圍,避免遺漏重要數據。此外,可利用工具提供的更新功能,如Google反向搜尋、論壇串接等,驗證數據內容的連貫性和一致性。同時,透過多維度的驗證,如時間、設備、代碼等,確保數據的完整性和可靠性。
挑戰5. 避免蒐集違法數據
經營者可能會為了更了解消費者的深層需求,在未經過消費者同意前,就直接搜集其相關的資訊,此會有違反個人資料保護法的疑慮。
建議在深入分析數據時,要先確認該數據的合法性,需再三的確認文件內容是已經經過客戶同意的條款,不斷地詢問自己:這些資訊是否都能公開?是否具有個人的敏感訊息?以避免造成違法的問題。
挑戰6. 確認數據必要有效
大數據顧名思義就是要不斷的增加數據來源,當數據量越來越多,經營者會落入無法知道哪些數據是必須的?要怎麼做才能強化資訊的有效性?
建議由不同的方式來進行確認,從以下角度來確認數據的必要性:
- 使用者:針對不同的使用者,探討哪些數據是對他們來說最重要的,藉此篩選出必須的數據。
- 分析模式:採用不同的分析模式,檢視哪些數據對於分析模式的影響最大,進而確認必須的數據。
- 搜集時間:分析不同時間段的數據,探討哪些數據在不同時間點上的變化,從而了解必須的數據。
透過這些方法,經營者能夠更清楚地了解哪些數據是必須的,進而提升資訊的有效性。
挑戰7. 避免數據本身偏誤
經營者往往難以判斷數據是否存在偏誤,因為在數據生成的過程中可能受到各種狀況的影響而導致偏差。
因此,建議在數據爬取過程中,注意是否有任何限制或未預期的情況出現,同時考慮多個數據來源,包括擴大使用者、科學分析模型的支持、數據收集的時間等,以避免數據偏誤對結果的影響。
挑戰8. 正確數據處理模式
錯誤的數據處理方式可能導致重要的數據遺失,甚至影響整個數據集的有效性。
建議企業在進行數據分析時,應該保留原始數據,確保數據正確的分隔與格式,並在不同時間點進行部分數據的分析,以進行即時監控和檢查。同時,應該刪除具有敏感性的訊息,並且在遵守法律規範的情況下使用匿名方式進行調查。
挑戰9. 避免搜集分析中斷
企業在進行數據分析時,可能會遇到技術問題導致搜集、分析流程中斷,例如存取失敗、資訊處理受阻、速度慢等。建議企業在抓取資料時,使用制式化設定,例如標籤、屬性、特定訊息的關聯分析等,並實時進行數據搜集錯誤處理。當存取失敗時,應嘗試重新分析現有數據庫中的資料,更新技術檢索限制,重新計算所需樣本量、提取頻率,並驗證最佳資料存取模式。此外,企業也可以考慮使用雲端計畫來擴展、不間斷地進行數據搜集,並透過網路取得分析結果、存取及運輸資料。
儘管上述挑戰存在,企業仍可透過監控系統及時了解數據品質關鍵,避免無效的數據問題。建議建立監控系統,讓經營人員及早發現錯誤的數據或分析方式。
監控數據的方法包括:
- 記錄每個數據的來源、代碼、搜集時間和方式等,並定期檢查數據的數量和記錄次數。
- 保留原始數據,通過監控來檢驗數據是否正確地被分析。例如,可以比較樣本訊息、原始數據和分析後的數據,以確認數據的準確性。
- 配置監控工具,使經營者能夠隨時關注經營過程中出現的任何問題,例如文件數量、分析文件大小、搜集時間和成本等。
- 自動生成數據分析報告,並在每個時間點製作的報告中記錄分析問題,特別是對數據品質有關鍵影響的部分。
挑戰10. 增加系統運載能力
對於企業來說,數據存取的頻率與經營需同步,並需隨時更新,以提高時效性。然而,存取頻率過高是否會對系統造成負擔?是否會造成系統運載能力不足的問題?
為此,建議企業需以存取頻率為核心,建立系統與相關技術。可透過多次的搜集來進行長時間的數據搜集,例如設定數據存取模式,每隔一定時間設定程式抓取資料。同時也要考慮數據來源的制定、測試、調整和增加擷取的時間等因素,以建立自動化搜集,確保數據擷取的穩定,進而深入瞭解經營概念。
作者:陳苡任(台科大企管系博士)、羅凱揚(台科大企管系博士)
[1] Boegershausen, Johannes, Hannes Datta, Abhishek Borah, and Andrew T. Stephen (2022), ” Fields of Gold: Scraping Web Data for Marketing Insights,” Journal of Marketing, 86 (5), 1–20.