視覺化財經數據,挖掘資料金礦 - 以美國投資基金公司為例
情境
電影《華爾街之狼》中有一句話「在太陽升起之前,就投資了太陽的股票!」完美詮釋了股票買賣交易者的心境。
試想,倚賴技術分析的投資者若能自行設定想觀察的特徵數值,繪製一組市場上難以獲得的圖形,是不是能更有信心地趕上台積電、陽明海運大漲,並避免買在高點被套牢或被當韭菜收割呢?
然而數據、圖形種類有那麼多,要利用哪些數據繪製哪些圖形對於分析才有幫助呢?底下我們將透過Two Sigma的財經數據挑戰, 將技術和數據科學應用於財經預測的最前端。讓投資者們在充滿不確定性的變動環境中,仍具備運用科學驅動的方法準確預測金融走勢的能力,不再只能空喊「本多終勝」的口號!
解決方法
1. 資料簡介
首先,我們先來查看資料集的樣態,資料是由美國對沖基金投資公司 — Two Sigma所提供,每一個欄位都經過去識別化的處理,總共有111個欄位,其中包含了1欄金融工具的ID、1欄目標變數(金融工具的價值)、1欄時間戳記與108欄與金融工具相關的特徵變數,如圖1. 所示。
2. 資料視覺化
為了找出表現較好的金融工具,並發掘潛力股,我們將進行以下4個資料視覺化的流程:
(1) 目標變數的分布
由於此挑戰並未說明目標變數為何,就數值多為小數且十分位為0而言,我們推測它可能是成長率,亦或是其他能以百分率表示的評估指標,代表著該金融工具的價值。首先,我們透過直方圖的形式,概覽目標變數(金融工具的價值)的分布狀況,如圖2. 所示。可發現目標變數大致上呈現常態分布,平均值落在0附近,同時可以發現極端處各有一個小峰,代表部分金融工具的價值較高,後續我們可以將這些金融工具列為目標,並搭配時間戳記觀察它長期的表現。
(2) 時間戳記的分布
接著,為了確保時間戳記的數量保持穩定,我們來查看時間戳記的數量,如圖3. 所示。可以發現時間戳記的數量有增加的趨勢,且過程中皆有一小段的向上跳躍,再些微減少,代表隨著時間的推移,有新的金融工具加入,並有些許金融工具遭到淘汰。
(3) 目標變數隨時間的變化
為了檢視變動環境中金融工具的走勢,我們藉由時間戳記觀察目標變數平均值的變動,並針對較感興趣時間戳記區間進行深入探索,如圖4. 所示。若能得知時間戳記的確切時間點,便可推估當時發生的事件,並作為歷史的借鏡,當投資者下次面臨類似的事件時便能把握住投資機會。
(4) 特定金融工具的目標變數
最後就要來挑出值得投資的金融工具了!我們篩選出存在於所有時間戳記的金融工具,因為此金融工具較不會受到「蜜月期」影響,且歷史紀錄較多,再檢視目標變數隨時間的走向,以挑選出較佳的金融工具。經過一番觀察後,總共挑出了特定的5個金融工具,它們的ID分別為1548、699、697、704、1066,如圖5. 所示。
圖中的藍線表示目標變數的分布,綠線則表示累積的目標變數數值。
這五個圖表中,可觀察出ID 699的累積目標變數較穩定成長,在無法得知y為何種評斷指標的情況下,我們僅能推測它或許是表現較好的金融工具,投資者便可把握機會投資!
成果與應用
藉由完成Two Sigma金融工具視覺化的過程,我們能夠觀察到在不同時間戳記下目標變數的異動情形,藉此篩選出具有價值的金融工具。若想進一步分析與探究特定變數因子的影響,便能再利用其他機器學習模型進行分析,以預測出最可能符合市場未來走向的趨勢與價值,同時打造出更具有參考性與說服力的投資模型,有效提高分析師的可信度,並協助客戶擺脫在景氣循環中不斷隨波逐流的惡性輪迴!
作者:鄭晴文、沈明賢(臺灣行銷研究特邀作者)、徐子皓(臺灣行銷研究特邀編審)、劉加德(臺灣行銷研究特邀編審)、鍾皓軒(臺灣行銷研究有限公司創辦人)
參考資料:
Two Sigma Financial Modeling Challenge:Two Sigma Financial Modeling Challenge
Two Sigma Time Travel (EDA):Two Sigma Time Travel (EDA)
Simple Exploration Notebook:Simple Exploration Notebook
更多實戰案例及情境好文推薦
我的競爭優勢? 視覺化口碑定位雷達圖輕鬆搜出來!(附實現程式碼)
我的競爭優勢? 視覺化口碑定位雷達圖輕鬆搜出來! (附實現程式碼) 談到精準名單,您會想到什麼? 當我們談到精準名單時,我們第一個常常會想到
行銷活動利潤模型與最佳決策點分析【資料分析篇】(附 Python 程式)
行銷活動利潤模型與最佳決策點分析【資料分析篇】(附 Python 程式) 在系列三(連結請點此),筆者帶領讀者解決了第二個問題-「如何用高層
如何評估不同產品適合的廣告方式?! 資料前處理_雙樣本t檢定技法(附Python程式碼)
如何評估不同產品適合的廣告方式?! 資料前處理_雙樣本t檢定技法(附Python程式碼) 此篇將講述何謂雙樣本t檢定,並使用該方法判斷不同產