挖掘用戶資料背後的秘密-資料探勘與文字探勘之比較
資訊科技快速進步,使用企業能夠大量蒐集、儲存消費者資料,然而如果這些資料未經整理、萃取和分析,就與堆積在地底下、沒有開發的礦產一樣,無法直接加值。因此如何由龐大的資料庫中,以「資料探勘」技術有效地提取資訊、自動地發掘可用知識,甚至更進一步整合成企業不可或缺的「商業智慧」,逐漸成為本世紀全球企業所需面對的重要課題。
依據維基百科的定義,「資料探勘」的目標,在於從一個資料集中提取資訊,並將其轉換成可理解的結構,以進一步使用。而資料探勘使用人工智慧、機器學習、統計學和資料庫的交叉方法,而它也是在相對較大型的資料集中「發現模式」的計算過程。
事實上,在企業行銷上,常會使用到資料探勘(Data Mining)和文字探勘(Text Mining)技術。它們的目的,在於使用自動或半自動的方式,從大量的用戶資料中,發掘出隱藏在背後的有用資訊。企業透過資料探勘技術,能找出一些模式或規則,以協助進行商業決策,並帶來更大的商業利益。至於文字探勘則是資料探勘的延伸,要進一步從非結構化的文字資料(Textual Data)中,萃取出對企業行銷服務或商品有意義的資訊。
傳統資料探勘所處理的資料,多以數字為主,比較精確(可以算到小數點後面好幾位),並以「結構式」資料為主。因為這些資料往往有一個固定結構的表格,每個欄位有其明確的定義及數值。資料探勘以這些結構性的資料為輸入,並經過極端值和遺漏值的處理,再透過演算法進行計算,就可得到一些預測模型。
相對於資料探勘,文字探勘(Text Mining)就複雜許多,原因在於它的原始輸入資料,多屬文字的型態,且大多數是由人類語言所構成,許多都沒有特定的結構。這些文字資料的來源,反映在日常生活當中,就像是新聞、或是人們在臉書、LINE、Twitter和微博上所發表的近況、以及部落格文章…等。不過,儘管它們看似雜亂,而且沒有一定的結構,但這些由自然語言構成的文字型資料中,一樣蘊藏著許多有價值的資訊。表1.是資料探勘與文字探勘的比較表。
由於在企業內、外大部分的資料中,以文字資料為大宗,因此,文字探勘也非常重要。文字探勘的重點,在於從非結構文字資料中找到有用的議題或顧客情緒。文字探勘能有系統地識別、擷取、管理、整合與應用文字資料背後所隱藏的知識。
儘管文意可能模糊,文意與背後隱藏的情緒可能完全相反或牴觸,加上有拼字寫法錯誤,或者翻譯品質不佳等問題,但現在拜文字探勘技術的快速進步與搜尋引擎的崛起,還是能在文字探勘中,做出文章的情感與意見探勘。
作者:蘇宇暉(台科大管研所博士候選人)、羅凱揚(台科大企管系博士)
繪圖者:周晏汝
更多商普好文推薦
AI對專業服務公司行銷實務的影響 — 關係強度轉變為關係和產品的組合
AI對專業服務公司行銷實務的影響 - 關係強度轉變為關係和產品的組合 延續上一篇文章,本篇文章將進一步討論人工智慧(AI)對專業服務公司(例